Sie befinden sich hier: Termine » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Lehrstuhl 5 » Prüfungsfragen/Ablauf   (Übersicht)

Prüfer: Dr. Riess, Beisitzer: ? Ergebnis: Sehr gut

Prüfungsfragen/Ablauf

Q: Dann fangen wir mal an, was haben wir alles in der VL gemacht?

A: (PA Wolke hingemalt)

Density Estimation

Q: Okay, hm… Density Estimation, wofür brauchen wir das denn?

A: (Einfach mit „Vortrag angefangen“) Diskrete Observations, wollen aber PDF für statistische Kennzahlen oder zur Generierung neuer Samples. p_R = (Samples innerhalb/Samples gesamt)*VR, Formel für p(x) = 1/N Summe Kernel (xi, x) hingemalt, „Hypercube“-Kernel erklärt, Gauss erklärt, Einfluss von Sigma/Kernelgröße auf PDF, gezeigt wie die dann aussieht (Stufenartig bei Hypercube → nicht differenzierbar), auf Underfitting/Overfitting eingegangen, Determinierung des Parameters über ML-Estimation

Q: Wie wissen wir jetzt, ob unser Parameter Sinn ergibt (genaue Frage nicht mehr im Kopf)

A: Cross-Validation, wir nehmen Samples aus unserer ursprünglichen Menge raus und schauen dann ob die sich gut durch unsere gefundene PDF erklären lassen

Density Forests

Q: Jetzt hatten wir ja auch über Density Forests gesprochen. Wie funktionieren die denn?

A: Würde erst mal mit dem Grundprinzip der Random Forests anfangen, wenn das ok ist, fürs Verständnis?

Q: Ok

A: Kurz auf allgemeine Bäume eingegangen: Entscheidungsbaumstruktur erzählt, IG maximieren - so jetzt aber zurück zu den Density Forests: Unsupervised Problem, d.h. keine Klassen, wir fitten in jedes Blatt einen Gauss, Information Gain hingemalt, Formel kurz erklärt: |cov(Sigma)| ist eine Art Volumenfunktion, |Sji| die Zahl der Samples im jew. Ast, |Sj| die aller, brauchen wir als Maßzahl um nicht auf ein einzelnes Sample optimieren, wir wollen dann H(Sji) möglichst minimieren da wir ja möglichst wenig abziehen wollen um den IG zu maximieren. Unschärfe nutzen um zu smoothen, da sonst die Gaussche sehr brutal 'abbrechen' und nicht kontinuierlich sind.

Q: Ok, wie sollte denn dann unser |cov(Sigma)| dann wirklich aussehen, wenn wir IG maximieren wollen?

A: (kurz gebraucht), Logarithmus hingemalt → da hatte ich kurz nen Hänger, hatte die falsche Kurve hingemalt (Grundlagen…), bisschen drum rum geredet

Q: Jetzt nochmal um sicherzugehen: Wie sollte unser Sigma sein - möglichst kompakt oder groß?

A: Möglichst kompakt?

Q: Bingo.

(Hinweis: Student vor mir hat erzählt, er wurde noch gefragt, wo der Unterschied zwischen Density Trees und Estimation ist - bei den Trees hat jedes Blatt eine eigene Kovarianzmatrix, d.h. da können verschiedene Sigmas genutzt werden was dementsprechend besser ist)

HMM

Q: Jetzt will ich aber noch was anderes machen. HMM, was ist das, wofür braucht man das?

A: Spambeispiel gebracht: 0-1-Vektor aller Wörter, die einzelnen Dimensionen sind statistisch abhängig → ist doof da man damit nicht umgehen kann → zum Beispiel „Viagra“ und „buy“ eher wahrscheinlich als was anderes → Wir führen Markov Assumption ein → nutzen dann HMMs als Art Automat → Markov Assumption besagt dass jeder State eine PDF hat die nicht von vorhergehenden States abhängig ist → jetzt lässt sich damit umgehen

Q: Okay, jetzt sagen sie „staistisch abhängig“, würde auch der Mathematiker sagen…

A: (wusste anfangs nicht ganz worauf er raus wollte, dachte mir dann aber kann eigentlich nur die Formel sein, hab die hingeschrieben): p(x|alle anderen) ← irgendwie so grob hingemalt, hatte das nicht auswendig gelernt.

Q: Passt…

A: Jo, dann haben wir unsere HMM, die schaut so aus (irgendeine HMM-Struktur hingemalt), da haben wir lambda = pi, A, B, kurz erklärt was das jeweils ist. Jetzt gehen wir mal nochmal zu nem anderen Beispiel, Wort erkennen: Wir wollen also wissen ob das ein bestimmtes Wort ist. Dann haben wir drei „Probleme“: Wahrscheinlichkeit dass es ein bestimmtes Wort ist, der wahrscheinlichste Pfad, Training.

(Kurze Pause gelassen, kam keine Rückfrage, also einfach weiter gemacht…)

Eigentlich ist das ja ganz logisch wie wahrscheinlich eine gewisse Sequenz ist → „nichtoptimierte“ Variante mit den ganzen Summenzeichen am Anfang hin gemalt → das ist aber halt doof, weil sehr aufwändig.

Q: Was heißt sehr aufwändig?

A: Naja, O(m^n) oder O(n^m)… muss ich kurz nachdenken, Sekunde, hab das nicht auswendig gelernt da logisch… nachgedacht → das richtige gesagt

Q: Genau, und was heißt „sehr aufwändig“ fachlich gesprochen?

A: Exponentieller Aufwand.

Q: Jup

A: Ja, also auf jeden Fall kann man das optimieren → dynamic programming → Forward und Backward Algorithm angesprochen → Forward erklärt.

Q: Ok, da möchte ich jetzt dann noch die Formeln sehen

A: Grob hingeschrieben

Q: Jap.

A: Backward weiter erklärt, dann zum Viterbi übergegangen, Viterbei erklärt → statt Summe nur noch max, Pfad merken.. Naja, ist ja alles schön und ugt, jetzt halt die Frage wie trainiert man das Ganze… Baum-Welch angesprochen, Formeln hingeschrieben, erklärt

Q: Passt, dann ist die Zeit rum, dann gehen sie doch mal raus…

Vorgehen

Kurz ins Thema einführen, dann kurz Pause lassen um zu schauen ob Rückfragen kommen, sonst einfach weiter reden. Wenn Fragen kommen darauf schauen, dass man die möglichst präzise beantwortet. Danach konnte ich eigentlich immer einfach den „Vortragsmodus“ weiter durchziehen.

Atmosphäre

Schön entspannt, super nett, reitet nicht auf Kleinigkeiten rum. Denke wenn man ihm zeigt dass man das Zeug verstanden hat passt das. Bei der O-Notation und Baum-Welch hatte ich das Zeug nicht auswendig gelernt sondern gesagt „Sekunde, brauche kurz um das logisch zu rekonstruieren“ → dann erklärt und er gibt einem da auch die Zeit ohne hektisch zu werden.

Lernvorgehen

Durch VL-Notizen gegangen, VL-Notizen zusammengefasst, Grundidee gelernt, ggf. „Hauptformeln“ bzw. Optimierungsprobleme, Verständnisfragen ergoogelt.

Herleitungen habe ich ausgeklammert und immer die Kernaussage mitgenomen (nach dem Motto „mit 0 gleichsetzen, auflösen, dann kommt diese Formel raus: X). Prüfung ging aber glücklicherweise eher auf das Algorithmisch-Statistische statt Mathematische ein, daher weiß ich nicht, ob das funktioniert (gerade bei den Punkten Graph Laplacian/Eigendecomposition etc.).

Er hatte eine Reihe an „Must Read“-papers und „Optional“-Papers zur Verfügung gestellt. Die „Must Read“ hatte ich die Kernpunkte gelesen und den Rest überflogen. Wenn man da an der ein oder anderen Stelle Bezug drauf nimmt (Density Forests: Kurz Vergleich zu GMMs gebracht, dass die Forests halt noch „Uncertainity“-Informationen haben) kommt das denke ich ganz gut. Optional-Papers maximal überflogen.