FSI Informatik/pruefungen/hauptstudium/sonstige/mpa_01_02_2016

Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » AudioLabs » Vorbereitung (Übersicht)

Prüfung: Music Procesing Analysis
Datum: 01.02.2016
Prüfer: Prof. Dr. Meinard Müller
Beisitzer: ?
Ergebnis: sehr gut

Vorbereitung

Alle Folien durchgegangen
Jeden Foliensatz auf je einer DIN A4 Seite zusammengefasst → direkt vorher nochmal angeschaut
Buchkapitel zur Zusammenfassung komplett im Buch nochmal durchgelesen
vor allem Verständnis und Schaubilder gelernt
die üblichen Sachen auswendig: F_pitch, T_coef und F_coef, warping path definition, Fourier transform und representation

Prüfung

Wir starten mit einer 5-Minuten-Zusammenfassung meines Buchkapitels (Audio Decomposition). Ich hatte nicht wirklich etwas vorbereitet und habe also eher frei von dem gesprochen, was mir noch in Erinnerung war. Dabei bin ich immer dann, wenn mir nichts mehr einfiel zum nächsten Thema gegangen unter dem Vorwand, dass 5 Minuten ja sehr kurz sind, um alle Details zu nennen. Ich hab mich dabei grob an der Gliederung meiner Zusammenfassung orientiert. Keine Ahnung, wie es von der Zeit aussah. Irgendwann hat mich der Prüfer dann unterbrochen mit genaueren Nachfragen: Warum wurde Median Filter für HPSS benutzt? (Ausreißer eliminieren) Welche Besonderheiten gibt es bei der Anwendung von NMF auf Musikdaten? (Multiplikative Update-Regeln benutzen. Dann kann man Wissen über Harmonics und ggf. Wissen aus Noten als Constraints in W und H verwenden.)

Weitere Themen/Fragen:

Fouriertransformation wichtiges Tool in Music Processing. Schreibe Definition eines beliebigen Szenarios hin.
Ich hatte den kontinuierlichen Fall gelernt, also ein f: R → R. Von dem ist dann die Fouriertransformation: ^f(omega) = Integral_(t in R)(f(t) * exp(-2ωπit))dt.
Interpretation? Vergleich von f(t) mit einem Sinusoidal per „innerem Produkt“
Wie komme ich von diesem kontinuierlichen Signal auf ein diskretes?
T-Sampling. x(n) = f(T*n)
Was ist eine übliche Sampling Rate? Warum?
44.1 kHz. Nyquist-Frequenz 22.05 kHz, das können Menschen etwa noch hören.
Wenn ich nun aber die diskrete Fouriertransformation berechne, was hab ich dann eigentlich in X(k) berechnet?
Formel F_coef(k) = sampling_rate / window_length nennen und an einem Zahlenbeispiel ausrechnen. (1/T = 20000, N = 1000) Lösung: 20 * k, also das 13. bin entspräche 260 Hz.
Chroma-Features. Wozu sind sie gut, wofür eher nicht?
Abstrahieren von Timbre, Dynamics, spiegeln harmonic progression wider. Abstrahieren außerdem von absoluter Tonhöhe, reduzieren also auf Tonhöhe innerhalb einer Oktave. (math. Dimension: 12)
Frage für Musiker: Würde man einen Chord recognition Algorithmus zwingen sich für einen Akkord zu entscheiden, wenn aber nur eine Note (C) auf dem Klavier gespielt wird, wie würde er sich entscheiden?
Er würde sich für den entsprechenden Dur-Dreiklang entscheiden (C-Dur). Denn 1.,2.,4. Harmonic: Grundton (C), 3. Harmonic: Quinte (G), 5. Harmonic: große Terz (E). Das Eb kommt erst viel später in der Naturtonreihe (→ weniger Energie).
Alignment Verfahren: DTW. Definition eines warping path hinschreiben. Ich hatte bei p_l = (n_l, m_l) die kleinen l bei n und m vergessen. Ich wurde darauf hingewiesen, dass wohl etwas fehle. Hier sollte man also aufpassen… Danach wollte er, nachdem ich nur die drei Schlagworte Boundary, Monotonicity und Step size genannt hatte, nur die Step size condition sehen. Welche Bedingung wird davon direkt impliziert? Monotonicity
Audio Fingerprinting / Audio Identification. Was soll es tun, was kann es nicht?
Identifikation einer bestimmten Aufnahme. Es kann keine Live-Versionen oder Coverversionen erkennen. Fingerprints sollen discriminative, robust, kompakt und leicht zu berechnen sein.
Warum? Smartphone → begrenzte Ressourcen, soll nicht lange dauern
Wie macht Shazam das Fingerprinting nun genau (keine technischen Details)?
Spectrogram → Peaks → fix anchor point → Target zone → bilde Paare/Tripel mit Frequenzen und der zeitlichen Distanz.
Warum diese Paare und nicht einzelne Peaks?
Es wird schneller. Anzahl möglicher Werte steigt exponentiell, während Anzahl der Objekte nur quadratisch mit der Target Zone wachsen. → Speedup. Ich tat mich schwer, den Unterschied zwischen Anzahl möglicher Werte und Anzahl der tatsächlichen Objekte in Datenbank und Query zu verbalisieren. Das wollte der Prüfer aber genauer hören.