Prüfer

Vincent Christlein.
Hatte eigentlich mit Prof. Maier gerechnet, der hat an diesem Tag anscheinend aber nur englischsprachige Prüfungen abgehalten.

Fragen

„Gib doch erst mal eine Übersicht der Vorlesung.“

Alle Themen der Vorlesung aufgelistet, jeweils noch einen kurzen Satz oder eine Beispielarchitektur dazu erwähnt.

„Du hast eben schon das Rosenblatt-Perceptron erwähnt, was genau ist das denn?“

Zeichung des Perceptrons.
y^ = sign(w^t*x)

„Was war denn das Problem beim Rosenblatt-Perceptron?“

Nur lineare 'decision boundary', beispielsweise XOR kann damit nicht gelöst werden.
Lösung: Multi-Layer Perceptron, 'Function Approximation Theorem' angesprochen und erklärt.

„Und wieso verwendet man dann 'Deep Networks', wenn ja eigentlich ein 'hidden layer' ausreicht?“

FAT sagt uns nur, dass es funktioniert, aber nicht wie viele Neuronen wir dafür brauchen (möglicherweise unendlich viele).
Reduziert Komplexität.
Stapeln der Layer erzeugt exponentiell viele Wege.

„Eben beim Rosenblatt-Perceptron hast du schon die sign-Aktivierungsfunktion angesprochen, was ist denn das Problem damit und welche Eigenschaften sollten Aktivierungsfunktionen allgemein erfüllen?“

Problem: Gradient fast immer 0
Gewünschte Eigenschaften: Nicht konstant, Saturierende Bereiche, Lineare Bereiche, Kontinuierlich

„Erzähl uns doch mal etwas über Optimierung.“

Gradient Descent, SGD, Mini-Batch SGD.
Zusätzlich Momentum Term nutzen.
ADAM nutzt zusätzlich noch Momente zweiter Ordnung.
AMSGrad versucht den 'learning rate decay' von ADAM zu reparieren.

„Was ist denn noch ein Hauptunterschied von beispielsweise SGD und ADAM?“

ADAM hat individuelle 'learning rates' für alle Gewichte.

„Nun zu Visualization, da haben wir heute noch fast nichts zu gefragt. Erzähl doch mal was über 'Attention Mechanisms'.“

Normalerweise wird 'attention' implizit gelernt.
Explizit möglich mittels Encoder/Decoder Mechanismus:
Encoder: Bekommt Input {x1, ..., x_t} ---> Berechnet 'hidden state' {h1, ..., h_t}
Decoder Bekommt 'hidden state' vom Encoder ---> Berechnet eigenen 'hidden state' {s1, ..., s_t'} ---> Generiert Output {y1, ..., y_t'}
Die Anzahl der features im In- und Output kann variieren.

„Nun noch zu Recurrent Networks, zeichne doch erst mal eine Elman-Unit, also das einfachste,“

Elman-Unit gezeichnet, kurz erklärt.

„Wie kann man das ganze nun trainieren?“

Netzwerk auffalten, dann BPPT verwenden.
Truncated BPPT erklärt.

„Wie kann man das ganze denn nun noch erweitern?“

Problem bei Elman: 'long term dependencies' gehen verloren.
LSTM: Führe zusätzlichen 'cell state' ein, um 'long term dependencies' darzustellen. Allerdings relativ aufwandig.
GRU: Etwas einfacher, nutzt keinen Cell state mehr. Kann auch 'long term dependencies' modellieren, allerdings nicht ganz so gut wie LSTM.

„Ok fast am Ende, was sind denn Recurrent Networks?“

F(x) = H(x) + x
Lerne also nur Unterschied zwischen In- und Output.

„Such dir doch mal eine Interpretation davon aus und erkläre sie.“

Ensemble View: Beispiel mit 2 'Stufen' aufgemalt.
Im Gegensatz zu normalen Netzwerken hat man hier exponentiell viele Pfade (aus Layersicht) bzw. auch Pfade unterschiedlicher Länge (aus Sicht der Neuronen).

„Zuletzt erklär doch noch kurz was man unter einem Regularizer versteht und welche wir da kennen gelernt haben.“

Versucht Overfitting zu verhindern.
L1-Regularizer: Erzwingt viele Nullen ('sparsity').
L2-Regularizer: Varianz wird reduziert, dafür steigt der Bias.

„Eine Technik fehlt noch, die wurde zum Beispiel im AlkexNet verwendet.“

Pooling. (Das war nicht gemeint, ist aber auch korrekt)
Dropout. Setze Neuronen im Training mit Wahrscheinlich 1-p zufällig auf inaktiv (Gewichte auf 0), beachte beim Testen, dass der Output mit p multipliziert werden muss.

Prüfungsatmosphäre / Bewertung

Sehr angenehm, keine Fallstricke.
Bei Unklarheiten wird auch gerne nachgeholfen und genug Zeit zum Nachdenken gegeben.
Dies wirkt sich meines Erachtens auch nicht negativ auf die Bewertung aus.
Trotz einiger kleinerer Hänger/Fehler noch 1.0.