Geometrie und Algebra von linearen Abbildungen, Vektoren und Matrizen
Die Hauptkomponentenanalyse findet die Richtungen, in denen Ihre Daten am stärksten variieren, und erlaubt es Ihnen, jeden Punkt mit nur wenigen dieser Richtungen zu beschreiben statt mit allen ursprünglichen Merkmalen. Sie ist das Standardwerkzeug zur Dimensionsreduktion und ist im Kern nichts anderes als die auf Ihre Daten angewandte SVD.
Das Rezept ist kurz. Zentrieren Sie die Daten (ziehen Sie den Mittelwert ab, sodass die Punktwolke im Ursprung sitzt), berechnen Sie die SVD der Datenmatrix und lesen Sie die Antworten ab: Die Hauptkomponenten sind die obersten Singulärrichtungen, und die Varianz jeder Komponente ist ihr Singulärwert zum Quadrat (geteilt durch n−1).
Stellen Sie sich eine gestreckte, geneigte Punktwolke vor. Die erste Hauptkomponente ist die lange Achse der Wolke, die einzelne Richtung, die die meiste Varianz erfasst. Die zweite steht senkrecht auf ihr und erfasst das meiste vom verbleibenden Rest, und so fort. Projizieren Sie auf die ersten paar, und Sie behalten die Form bei, während Sie Dimensionen abwerfen.