PCA via SVD

Géométrie et algèbre des applications linéaires, vecteurs et matrices

L'analyse en composantes principales trouve les directions dans lesquelles vos données varient le plus, puis vous laisse décrire chaque point avec seulement quelques-unes de ces directions au lieu de toutes les features d'origine. C'est l'outil standard de réduction de dimension, et sous le capot c'est la SVD appliquée à vos données.

La recette est courte. Centrez les données (soustrayez la moyenne pour que le nuage soit à l'origine), prenez la SVD de la matrice de données, et lisez les réponses : les composantes principales sont les premières directions singulières, et la variance de chaque composante est sa valeur singulière au carré (sur n−1).

Imaginez un nuage de points étiré et incliné. La première composante principale est le grand axe du nuage, la seule direction capturant le plus de variance. La seconde lui est perpendiculaire, capturant le plus de ce qui reste, et ainsi de suite. Projetez sur les premières et vous gardez la forme tout en perdant des dimensions.

Où cela apparaît en MLPCA est l'outil classique de réduction de dimension : rétrécir un jeu de données à 1000 features à ses 50 directions les plus informatives avant l'entraînement, coupant le bruit et le calcul. Il alimente la visualisation (projeter en 2D), l'analyse de features, et le whitening. La même image propre/SVD sous-tend l'apprentissage de représentations moderne, trouvant un petit ensemble de directions…
▶ PCA via SVD
← SVDMoindres Carrés →