Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Lehrstuhl 5 » pr-2018-03-13   (Übersicht)

Note: 1,7

Prüfer: Nöth, Beisitzer: Käppler

Bayes

Q: Fangen wir mal mit Bayes an - Entscheidungsregel?

A: Angefangen mit was Bayes Logik vs normale Logik ist, Formel hergeleitet, Bestandteile erläutert, class-conditional PDF mit Beispiel.

Q: Was haben wir bei Bayes für einen Loss/Optimalität?

A: 0-1 loss function, für jede Missklassifiation zahlen wir „1“

Q: (Weiß ich nicht mehr genau, irgendwas in Richtung „was bedeutet das?“)

A: (Wollte glaube ich darauf hinaus, dass wir die Zahl der Missklassifikationen zählen. Dachte das hätte ich mit „wir zahlen 1 bei Fehler“ abgehandelt)

Gauss

Q: Hatten ja den Nearest Neighbour kennen gelernt. Wie ist der Zusammenhang zw. Bayes und NN Loss?

A: „In einem der alten Klausurprotokolle stand irgendwas von 2, hatte dazu aber nichts in den Folien oder online gefunden“

Q: „Manchmal ists auch gut wenn man in den VL da ist :-)

Q: Wir haben jetzt die ganze Zeit von Class Conditional PDFs geredet. Die existieren ja wirklich irgendwie und sind nicht nur so ein Ding. Wie können wir das denn modellieren?

A: (Hatte gehofft wir kommen jetzt endlich weg von den Loss Funktionen): Gaussverteilung

Q: Was tun wenn wir viele Daten haben?

A: Dimensionen reduzieren zB PCA oder Daten unabhängig machen, in letzterem Fall Gaussche Matrix mit „zum Beispiel 1ern“ in der Diagonale hingemalt

Q: „Das stimmt jetzt aber nicht!“

A: 1er in der Diagonale nur Beispiel für eine Zahl, aber muss halt darauf rauslaufen dass wirklich nur in der Diagonale zahlen stehen, weiter ausgeholt über die Abschätzung - statt Pi * Daumen 50^2/2 für Kovar. + 50 für µ brauchen wir jetzt nur noch 100.

Q: Zusammenhang zu Nearest Neighbour?

A: Bei gleichem Prior und Kovarianzmatrix, Funktion für Gaussche PDF hingemalt, über F(x)=0 in der Logistic Regression die Decission boundary hergeleitet (log (1) = 0; log (p(x|y_1) / p(x|y_2) = …), konstante Anteile hingezeichnet, gesagt wann die Decission Boundary linear ist (auf quadratisches Polynom umformulieren, A fliegt raus, wollte er aber nicht haben). ← Kann sein dass ich das auch schon vorher irgendwo angebracht habe.

Q: Und zu was genau nutzen wir da jetzt den Nearest Neighbour

A: Zum jeweiligen µ

Lossfunktionen

Ab hier wurde es irgendwie unangenehm. Ganz komische Vermischung der Themen SVM, Adaboost, „Herleitung“ bzw. Anfangen der Themen jeweils über die einzelnen Lossfunktionen. Hatte mir die zwar angeschaut, aber konnte da nur schwierig einen Bezug zueinander setzen. Im Sinne von „Wieso ist es besser hier jetzt hinge loss statt 0-1 zu nutzen?“. Hat mich insgesamt sehr durcheinander geworfen. Per „Erzählen Sie mir was über Adaboost / Leiten Sie SVM her“ wäre es vmtl. deutlich besser gelaufen und ich hätte gewusst, worauf er raus möchte. Insgesamt war der Teil leider eher ein Kurzvortrag von ihm, ich würde schätzen er hat sicherlich 5-10 Minuten Monolog gehalten.

Dass ich mir die Formel für den error falsch gemerkt/geistig zu sehr vereinfacht habe war natürlich ungünstig :-)

Q: Zwei Gausswolken hingemalt. Können jetzt hier SVM nutzen. Wie sieht die Lossfunktion aus?

A: Hinge loss

Q: Ja und wo ist da jetzt der Vorteil/Unterschied ggü. NN?

A: ???

Q: (Wollte letztlich glaube ich darauf raus dass starke Ausreisser bei SVMs die Boundary in die jweilige Richtung ziehen (aber bin mir nicht wirklich sicher). Hat dann noch gezeigt wie die Samples jeweils projiziert werden)

Q: Wie ist denn der Fehler bei Adaboost definiert?

A: Zahl der falsch klassifzierten / Zahl aller Samples

Q: Nein das stimmt nicht!

A: (???) (Hatte das so in meiner Zusammenfassung, war leider ein Fehler meinerseits.)

Q: Ja, aber dann wäre es ja gleich mit 0-1

A: (???)

Q: Schreiben Sie mal die Formel für den Gesamtclassifier hin.

A: Hingeschrieben

Q: Der Fehler wird ja noch gewichtet

A: (Mittlerweile sehr verwirrt)

Q: Malen Sie mal 0-1 und Hinge Loss hin.

A: Hinge loss hingemalt, bei 0-1 wg. davor noch sehr durcheinander gewesen, dann aber letztlich auch hin gemalt.

Q: Naja, dann gehen Sie doch mal raus.

(Vereinzelt vermutlich einige Punkte durcheinander geworfen)

Zusammenfassend:

- Atmosphäre insgesamt ok - Habe mir leider ungünstigerweise keine supergroßen Gedanken über die einzelnen Lossfunktionen gemacht bzw. insbesondere deren Verstrickung untereinander und wieso man jetzt wann welche verwendet. - Dementsprechend ist es ab dem Teil ziemlich schief gelaufen (Schade Schokolade) - Beim Loss-Funktionsteil hat er sehr sehr viel selbst geredet. Insgesamt hatte ich das Gefühl, dass er da eher 10 Minuten Vortrag gehalten hat als mich noch konkret was zu fragen (war da eh schon „leicht“ verwirrt). - Benotung für Leistung fair (1,7), persönliches Ziel leider verfehlt :-)

Vorbereitung:

- ca. 10 Tage, Folien komplett zusammengefasst, mathematische Herleitungen versucht zu verstehen, Zusammenfassung über 12 Seiten geschrieben - das obige war schon sehr knackig, gerade die letzten 3-4 Tage bestanden nur noch aus PR und hatte letztlich nur noch einen Tag Zeit, um die Zusammenfassung „auswendig zu lernen“ - Letztlich nur Formeln/Algorithmen für Bayes, Gauss, SVM, SVR, Kernpunkte Logistic Regression, GMM/EM, Adaboost gemerkt. - Zusätzlich zu den Formeln noch grob mathematischen Lösungsweg, damit man den zumindest andeuten kann. Im Sinne „SVM: Primales Problem (hinschreiben) über Lagrangian und partielle Ableitungen auf Null setzen dann zum dualen Problem“. - Zusammenhang Gauss, kNN, Bayes sehr wichtig, steht leider sehr verteilt in der VL/nur online

Taktik:

- Würde zu jedem Thema immer versuchen so viel wie möglich zu erzählen. Glaube durch den Kurzvortrag am Ende (von dem ich ihm ja durchaus auch einiges hätte erzählen können :-)) sind da einige „Punkte“ verloren gegangen - Auf der anderen Seite steht in anderen Protokollen aber auch wieder, dass man durch „ihn reden lassen“ auch ganz gut durch kommt.

Tipps:

Gutes SVM Video: https://www.youtube.com/watch?v=eUfvyUEGMD8