PCA über SVD

Geometrie und Algebra von linearen Abbildungen, Vektoren und Matrizen

Die Hauptkomponentenanalyse findet die Richtungen, in denen Ihre Daten am stärksten variieren, und erlaubt es Ihnen, jeden Punkt mit nur wenigen dieser Richtungen zu beschreiben statt mit allen ursprünglichen Merkmalen. Sie ist das Standardwerkzeug zur Dimensionsreduktion und ist im Kern nichts anderes als die auf Ihre Daten angewandte SVD.

Das Rezept ist kurz. Zentrieren Sie die Daten (ziehen Sie den Mittelwert ab, sodass die Punktwolke im Ursprung sitzt), berechnen Sie die SVD der Datenmatrix und lesen Sie die Antworten ab: Die Hauptkomponenten sind die obersten Singulärrichtungen, und die Varianz jeder Komponente ist ihr Singulärwert zum Quadrat (geteilt durch n−1).

Stellen Sie sich eine gestreckte, geneigte Punktwolke vor. Die erste Hauptkomponente ist die lange Achse der Wolke, die einzelne Richtung, die die meiste Varianz erfasst. Die zweite steht senkrecht auf ihr und erfasst das meiste vom verbleibenden Rest, und so fort. Projizieren Sie auf die ersten paar, und Sie behalten die Form bei, während Sie Dimensionen abwerfen.

Wo das im ML vorkommtDie PCA ist das klassische Werkzeug zur Dimensionsreduktion: Schrumpfen Sie einen Datensatz mit 1000 Merkmalen vor dem Training auf seine 50 informativsten Richtungen und senken Sie so Rauschen und Rechenaufwand. Sie ermöglicht Visualisierung (Projektion auf 2D), Merkmalsanalyse und Whitening. Dasselbe Eigen-/SVD-Bild liegt dem modernen Repräsentationslernen zugrunde, das eine kleine Menge von…
▶ PCA über SVD
← SVDKleinste Quadrate →