Geometría y álgebra de aplicaciones lineales, vectores y matrices
El análisis de componentes principales encuentra las direcciones en las que tu datos varía más, luego te permite describir cada punto con solo unas pocas de esas direcciones en lugar de todas las características originales. Es la herramienta estándar para reducir la dimensionalidad y bajo el capó se trata de una SVD aplicada a tus datos.
La receta es corta. Centra los datos (resta la media para que la nube esté en el origen), toma la SVD de la matriz de datos, y lee las respuestas: los componentes principales son las direcciones singulares superiores, y cada componente's varianza es su valor singular al cuadrado (sobre n−1).
Imagina una nube estirada y inclinada de puntos. El primer componente principal es el eje largo de la nube, la única dirección que captura la mayor varianza. El segundo es perpendicular a él, capturando lo más posible del resto, y así sucesivamente. Proyecta sobre los primeros pocos y mantienes la forma mientras reducís dimensiones.