PR Rank-Reduced LDA

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

PR Rank-Reduced LDA
Hi,

ich bin gerade über PR und habe einen Hänger.
Und zwar kann man ja die Ranked-Reduced LDA als eine Verbesserung zur herkömmlichen LDA sehen, da man die Dimension des Problems weiter verkleinert.
Was ich jetzt einfach nicht verstehe, ist folgendes:

Wieso muss man dazu den “spread” der features in der subspace maximieren?
Kann mir das bitte jemand verständlich (evtl. grafisch, da leichter?) erklären?

Ich wäre euch sehr dankbar.


Hi,

bei mir ists schon ein Jahr her aber wenn ich mir des gerade nochmal in der Zusammenfassung anschau :

ich bin mir da nicht ganz sicher aber wenn ich mir die Formel anschau, dann ist Kern dieser eigentlich nicht das der abstand der features maximiert werden sollte (das würde unsere intra-class distance ja wieder kaputt machen).
Wenn man sich den Vorgang genau anschaut, dann sieht man ja das eine covarianz-matrix die erstellt wird, nur aus den meanvectoren der Klassen und dem “globalen” meanvector erzeugt wird. Und die Transformation besteht jetzt ja aus den eigenvectoren dieser Matrix.

Wendet man diese transformation jetzt auf die features an, dann werden die zwar gespreaded aber nicht sinnfrei maximal sondern so das die inter class distance maximiert wird. Was dann ja auch dem Sinn des ganzen entsprechen würde :).

Ich kann später oder morgen nochmal tiefer reinschauen, vieleicht hat bis dahin ja schon jemand der es aktuell lernt erklärt oder mein gedanken Ansstoß hat dich schon auf die richtige lösung gebracht :).

grüße,
Christopher

ps.: in meiner Zusammenfassung steht das so wie du die Frage formuliert hast, aber das ist wirklich fragen aufwerfend warum die distanz der features einfach komplett maximiert werden soll (und es passt nicht zur formel), eine sehr hyptotetische möglichkeit die mir gerade als einziges einfällt um der Aussage sinnzuverleiehn ist, dass durch die vorherige reduktion schon sichergestellt wurde, dass keine Dimension mehr vorhanden ist in die man projezieren könnte bei der die intra-class-dinstance wieder erhöht wird ← aber das ist sehr hyptotetisch und in keinster weise fundiert gerade^^


Mit der nicht-rank-reduced-LDA setzt du ja die (mittlere) Covarianz aller Klassen auf die Einheitsmatrix. Daher kannst du ab diesem Zeitpunkt jedem Sample einfach die Klasse des nahsten Klassen-Mean-Vektors zuordnen.

Die Matrix Phi, die bei der PCA immer auftaucht, ist eine orthogonale Matrix = eine Rotationsmatrix. (Deshalb auch die Constraints mit die Vektoren von Phi haben die Länge 1 und sind orthogonal zueinander, was bei der ein oder anderen Vorlesung fehlt.) Das heißt die PCA skaliert deinen Feature Space gar nicht, alle (Basis-)vektoren, auf die die Matrix projiziert haben die Länge 1. [Sonst könntest du ja einfach eine beliebig große Länge verwenden die zu einem beliebig großen Spread führt und bräuchtest wie runet schon gesagt hat den ersten Schritt erst gar nicht machen.]
Was die Matrix Phi eigentlich tut, ist, deine Daten so hin zu drehen, dass in der ersten Dimension die größte Varianz bezogen auf die Klassen-Mean-Vektoren ist und in den anderen Dimensionen weniger.

Wenn du jetzt nur einen Teil der resultierenden Dimensionen behälst (das ist ja der eigentliche Grund, warum du die PCA machst), nimmst du die “ersten” Dimensionen, weil die die größte Varianz haben. Wenn du weniger als alle Dimensionen nimmst, hast du am Ende aber (fast) zwangsläufig weniger Varianz. Die Maximierung bei der PCA ist also eigentlich, dass man möglichst wenig Varianz verliert.

Wenn du das ganze jetzt mit der Fisher-Transform machst, siehst du, dass das das gleiche ist, nur beide Schritte auf einmal: Das Constraint mit der (gemittelten) Intra-Class-Covarianzmatrix legt fest, dass der r-Vektor so skaliert ist, dass die Intra-Class Varianz in dessen Richtung 1 ist. (Wenn du mehr Dimensionen hast, hast du mehrere r-Vektoren die orthogonal zueinander sein müssen, also gleicher Effekt wie nicht-ranked-reduced-LDA.) Die Maximierung sorgt unter der Bedingung wieder dafür, dass wir die Richtung als erstes nehmen, die bei Intra-Class-Varianz-1 die größte Inter-Class-Varianz hat.

Ich hoffe das macht es noch etwas klarer.


Danke für die Hilfe!