====== Rechnerarchitektur ======

**Prüfer:** Prof. Fey\\
**Beisitzer:** Franz Richter

Zettel und Stift stehen zur Verfügung. Laut Vorlesung ist die 5 ECTS-Prüfung identisch zur 7,5 ECTS-Prüfung.

Prof. Fey holt sich zwischendurch immer Ideen für Fragen von einem beiliegenden Blatt. Es wirkt so, als soll jedes Thema zumindest einmal angesprochen werden. Note: sehr gut

===== CISC =====

**F:** Wie funktioniert ein Mikroprogrammwerk und warum nutzt man es?\\
**A:** Mikroprogrammwerk aufgemalt und dabei einzelnde Komponenten erklärt:

<code>
                                Makroinstruktion
                                           |
                                           v
                                        Decoder
                                           |
                                           v
    Sequencer ---------------------------> CAR
       ^                                   |
       |                                   v
       |                     Mikroprogrammspeicher
       |                                   |
       |                                   v
       |                                  CBR
       |                                   |
       |                                   v
       |------------------------------ Decoder
                                           | CPU-interne und Speicherbussignale
                                           v
</code>

**F:** Ist es auch ohne Decode hinter CBR möglich?\\
**A:** Ja, aber das ist dann wieder weniger flexibel; **Anm.:** Etwas viele Prozessorsignale zu speichern (tausende)

**F:** Hat der Sequencer auch noch anderen Eingänge?\\
**A:** Ja, die ALU-Flags und natürlich die Clock.

**F:** Welchen Vorteil hat nun ein Mikroprogrammwerk?\\
**A:** Es sind Fehler behebbar, man kann Kompatibiltität mit anderen Befehlssätzen herstellen und auch Kompatibilität mit anderen Befehlssatzversionen ist möglich.

**F:** Warum wollte man dann von CISC weg?\\
**A:** Befehle sind unterschiedlich lang, komplex, und haben viele Adressierungsarten und Berechnungen dieser in einem Befehl. Mit Aufkommen den Pipelines wollte man das vereinfachen -> RISC

**F:** Was sind die Vorteile von RISC?\\
**A:** Immer gleich große Befehlsworte, festverdrahteter Decoder (kein Mikroprogrammwerk mehr nötig), höheres Takten aufgrund der Pipeline

**F:** Wie ist der Durchsatz einer Pipeline bei k Stufen und tau Stufenzeit?\\
**A:** (Wollte erst Speedup erklären:) Speedup bei unendlich Instruktionen ist k. Ein Schritt dauert tau Sekunden, jeden Schritt wird ein weiterer Befehl fertig, außer beim ersten, der braucht k Schritte, bevor einer fertig wird.

**F:** Und damit ist jetzt der Durchsatz?\\
**A:** 1/tau

**F:** Welche Probleme gibt es beim Pipelining?\\
**A:** Strukturhazard ("zu wenig Hardware"), Steuerungshazard ("Sprünge"), Datenhazard ("Ergebnisabhängigkeiten")

**F:** Steuerungshazard wurde bereits in einer anderen Prüfung behandelt. Welche Datenhazards gibt es alles?\\
**A:** RAW (behebbar durch Forwarding), WAW, WAR

RAW:
<code>
div r0, r1, r2
add r3, r0, r4
</code>

r0 ist hierbei in der Operandenholphase unter Umständen noch nicht berechnet worden

WAR:
<code>
div r0, r1, r2
add r1, r3, r4
</code>

Unter Umständen kann r1 vom add-Befehl geschrieben werden, bevor div ihn als Operand geholt hat.
WAW ist so ähnlich wie WAR.

**F:** Wann passiert so etwas? (WAR)\\
**A:** Superskalare Ausführung. (**Anm.:** Eigentlich war gewünscht zu sagen, dass div eventuell die Operanden noch nicht geholt hat, weil auf r2 gewartet werden muss)\\
**A:** Das kann man aber ganz einfach durch Kopieren des Wertes Lösen wie bei Tomasulo.

**F:** Das ist die Lösung! Wie heißt denn der Fachbegriff zu Tomasulo?\\
**A:** Reservierungsstationen?

**F:** ... beinhalten Register ...?\\
**A:** Registerumbenennung!

**F:** Noch einen Schritt zurück: Wie funktioniert das Scoreboard? (Es war nichts vorgegeben)\\
**A:** Die DE-Phase wird in DE1 und DE2 (auch Operandenholphase) getrennt. Beim Warten werden stalls eingefügt.\\
\\
DE1: WAW-Hazard auflösen durch Prüfung, ob Zielregister nicht von anderer Operation beschrieben werden wird.\\
DE2: RAW-Hazard auflösen durch Prüfung, ob Operandenregister fertig sind\\
EX: Langweilig fürs Scoreboard\\
WB: WAR-Hazard auflösen durch Prüfung, ob eine Instruktion das Zielregister noch als Operandenregister benötigt

**F:** Und was ist das Scoreboard?\\
**A:** Datenstrukturen, speichern beispielsweise Busy, Zielregister, Operandenregister, Operandenregisterfüllende FU (das wollte er hören)

===== Multiprozessorsysteme =====

**F:** Warum Multiprozessorsysteme?\\
**A:** Pollacks Regel, Inverse Pollacks Regel erklärt und Vorteile gezeigt. Grund für diese Überlegungen war, dass man durch Drehen an der Taktschraube an der thermischen Belastungsgrenze ankam. Daher: Mehr Prozessoren/Kerne, obwohl schwieriger zu programmieren (macht nicht die Hardware selbst, wie beim Pipelining).

**F:** Ein bisschen weiterführendes Thema: Um was muss sich ein Programmierer kümmern?\\
**A:** Starten weiterer Instruktionsströme, Teilen des Problems in Teilprobleme, die parallel ausgeführt werden können.

**F:** Annahme, das sei gegeben, aber die Befehlsströme müssen sich koordinieren.\\
**A:** Synchronisation, z.B. per gegenseitigem Ausschluss. Kann aber unter Umständen Deadlocks provozieren.

**F:** Auch etwas weg vom Stoff der Vorlesung: Warum sind Multiprozessorsysteme auch besonders in Hinsicht auf Echtzeitsysteme problematisch?\\
**A:** Prioritätsumkehr, die man durch Priority-Ceiling-Protokolle umgehen kann

**F:** Das Problem hat man auch bei Singlecore! Tipp: Was ist mit den Caches?\\
**A:** Bei Echtzeitsystemen rechnet man damit, dass jeder Speicherzugriff ein Miss ist. (**Anm.:** Man deaktiviert einfach die Caches) Cache-Kohärenz muss eingehalten werden, was vielleicht wieder nicht ganz vorhersagbar ist.

**F:** Und wie behebt man das?\\
**A:** Message-Passing, dann ist es gar nicht nötig, Cache-Kohärenz-Protokolle zu verwenden.

===== Roofline =====

**F:** Was ist das Roofline-Modell?\\
**A:** Vereinfachtes Modell um herauszufinden, ob ein Kernel ("bestimmter Problemalgorithmus") memory-bound oder CPU-bound ist.

<code>
FLOPS
   ^
   |      --------------------------------------------
   |     /
   |    /
   |   /
   |  /
   | /
   --------------------------------------------------------> operationelle Intensität (FLOP/Byte)
      |                       |
    Kernel 1                Kernel 2
</code>

Kernel 1 ist memory-bound (kleine operationelle Intensität), Kernel 2 CPU-bound (höhere operationelle Intensität)

**F:** Wie kann man die Leistung verbessern?\\
**A:** CPU-Begrenzung: SIMD, Speicherbegrenzung: NUMA beachten

**F:** Was ist NUMA?\\
**A:** Unterschiedliche physikalische Anbindungen des Speichers.

<code>
Memory 0 <--> CPU 0 <--> Verbindung (Hypertransport/QuickpathInterconnect) <--> CPU 1 <---> Memory 1
</code>

Zugriff von CPU 0 auf Memory 0 schneller als Zugriff auf Memory 1 von CPU 0.

**F:** Unit-Stride-Access ist auch eine Möglichkeit. Was ist das?\\
**A:** Daten gleich in größeren Happen ("Wortbreite") holen, anstelle einzeln. Dabei außerdem DDR-Speicher ausnutzen, der gleich blockweise Daten holt. Also möglichst auf hintereinander liegende Daten zugreifen.

===== Spezialprozessoren =====

**F:** Was ist der Unterschied zwischen Universalprozessoren, FPGAs und ASICs?\\
**A:** Universalprozessoren: Können alles, flexibel, komplex, teuer, "wenige"; ASICs: Spezieller Anwendungsfall, eher simpel, "billig in großer Stückzahl", "viele"; FPGAs: Bei geringerer Stückzahl ASICs vorzuziehen, programmierbare Hardware

**F:** Wie funktionieren FPGAs?\\
**A:** "Logikblöcke", die programmiert werden können, was an dem Ausgang bei welchem Eingang anliegen soll. Vernetzung untereinander. Beispiel für Belegung:

<code>
Eingang | Ausgang
--------|--------
   00   |   0
   01   |   1
   10   |   1
   11   |   0
</code>

**F:** Welches System ist am energieeffizientesten?\\
**A:** ASICs, da sie ohne Dekodierlogik (im Gegensatz zum Universalprozessor) auskommen. (**Anm.:** Auch Befehlspipeline kann man sich sparen)