Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Lehrstuhl 5 » Prüfung PR – Nöth – Oktober 2019

Prüfung PR – Nöth – Oktober 2019

Nearest Neighbor

F: Wir haben hier Daten (aufgezeichnet: Puls Range 30-230 und Temperatur Range 37-40) und wollen kranke Menschen und gesunde Menschen klassifizieren mit NN.
Wie funktioniert das denn?
A: Zuerst Achsen normalisieren, dann Abstand zu allen anderen Daten berechnen und die
Klasse wählen, zu der der naheste Nachbar gehört.

F: Bei einer großen Menge an Daten wird die Berechnung der Distanzen ja ziemlich aufwändig. Wie steigt der Aufwand denn?
A: Quadratisch.
F: Wie haben wir die Berechnung in der Übung beschleunigt?
A: Durch Verwendung von Matrix Multiplikationen statt doppelter for-Schleifen.

F: NN verwenden wir gerne weil er sehr einfach mit 5 Zeilen Code geschrieben werden kann. Was macht ihn denn noch interessant im Bezug zu einem anderen Classifier aus der Vorlesung?
A: Der loss von NN ist höchstens doppelt so groß wie der Bayes loss und Bayes ist optimal bzgl 0/1-loss.

F: Ist der 0/1-loss hier in unserem Beispiel sinnvoll?
A: Nein, weil es schlimmer ist einen Kranken als gesund zu klassifizieren als anders herum und (0,1) bestraft alle gleich stark.

F: Wie funktioniert denn der Bayes Classifier?
A: Formel hingeschrieben und erklärt, wichtig war ihm auch die Umformung mit log

Hier weiß ich nicht mehr genau wie wir darauf gekommen sind, aber es ging um die Kovarianz Matrix, und dass sie für NN der Identity Matrix entspricht.

F: Welche Annahme treffen wir, damit wir MLE zum abschätzen der Kovarianz Matrix verwenden können?
A: Die Punkte/Featurevektoren sind unabhängig von einander

Gaussian Mixture Models

F: *zeichnet zwei feature wolken von denen eine drei „mittelpunkte“ hat* wie können wir damit umgehen?
A: Man nimmt für die erste Wolke ein GMM mit 3 Gauss-Verteilungen an, wichtig war ihm hier dass man die andere Wolke erstmal ignoriert.

F: Erklären Sie mal wie GMM funktioniert.
A: Intuition hinter GMM und EM Algorithmus erklärt und EM-Schritte im Detail erklärt, jeweils mit Formeln. Hier hat ihn gestört dass ich sehr unstrukturiert vorgegangen bin, wichtig war ihm
die Initialisierung (Random + evtl mehrfach samplen und bestes ergebnis um lokale Maxima zu umgehen; K-means für Initialwerte die sehr wahrscheinlich zum globalen Maximum führen) und
p(x) vor den E und M Schritten zu erklären

SVM

F: Gut dann hatten wir ja noch eine andere Art von Classifier kennen gelernt, erklären Sie mir bitte die SVM
A: SVM → hard margin erklärt, was dabei herauskommt, Zeichnung gemacht wo was ist, Optimierungsproblem aufgeschrieben

F: Was sagen denn die Constraints aus?
A: Wollen keine Punkte innerhalb des margins (deswegen die -1), ax+a0 gibt positive oder negative Distanz zur decision boundary ⇒ Vorzeichen bestimmt die Klasse, slack variables setzen
die samples auf den Rand des margins ⇒ support vektoren

Fazit: Er bewertet sehr fair, ich hatte aber auch immer wieder Schwierigkeiten zu verstehen worauf er hinaus will, war teilweise etwas verwirrend. Ihm ist sehr wichtig dass man die Formeln wirklich
verstanden hat, entprechend will er teilweise auch die einzelnen Bestandteile genauer erklärt haben, aber trotzdem legt er auch sehr viel Wert
auf eine gute intuitive Erklärung davor wert, die ohne die Formeln auskommt.
Die wichtigsten Themen sind ziemlich sicher SVM/SVR, AdaBoost, GMM/EM und NN/Bayes, was vor allem aus den anderen Protokollen ja auch hervorgeht.