Géométrie et algèbre des applications linéaires, vecteurs et matrices
L'analyse en composantes principales trouve les directions dans lesquelles vos données varient le plus, puis vous laisse décrire chaque point avec seulement quelques-unes de ces directions au lieu de toutes les features d'origine. C'est l'outil standard de réduction de dimension, et sous le capot c'est la SVD appliquée à vos données.
La recette est courte. Centrez les données (soustrayez la moyenne pour que le nuage soit à l'origine), prenez la SVD de la matrice de données, et lisez les réponses : les composantes principales sont les premières directions singulières, et la variance de chaque composante est sa valeur singulière au carré (sur n−1).
Imaginez un nuage de points étiré et incliné. La première composante principale est le grand axe du nuage, la seule direction capturant le plus de variance. La seconde lui est perpendiculaire, capturant le plus de ce qui reste, et ainsi de suite. Projetez sur les premières et vous gardez la forme tout en perdant des dimensions.