Geometria e álgebra das aplicações lineares, vetores e matrizes
A análise de componentes principais encontra as direções em que os teus dados mais variam, e depois permite descrever cada ponto usando apenas algumas dessas direções em vez de todas as variáveis originais. É a ferramenta padrão para redução de dimensionalidade e, nos bastidores, não passa de SVD aplicada aos teus dados.
A receita é curta. Centra os dados (subtrai a média para que a nuvem fique na origem), faz a SVD da matriz de dados, e lê as respostas: os componentes principais são as direções singulares do topo, e a variância de cada componente é o seu valor singular ao quadrado (sobre n−1).
Imagina uma nuvem de pontos esticada e inclinada. O primeiro componente principal é o eixo longo da nuvem, a única direção a captar mais variância. O segundo é perpendicular a ele, captando o máximo do que sobra, e assim por diante. Projeta nos primeiros e manténs a forma enquanto descartas dimensões.