PCA via SVD

Geometria e álgebra das aplicações lineares, vetores e matrizes

A análise de componentes principais encontra as direções em que os teus dados mais variam, e depois permite descrever cada ponto usando apenas algumas dessas direções em vez de todas as variáveis originais. É a ferramenta padrão para redução de dimensionalidade e, nos bastidores, não passa de SVD aplicada aos teus dados.

A receita é curta. Centra os dados (subtrai a média para que a nuvem fique na origem), faz a SVD da matriz de dados, e lê as respostas: os componentes principais são as direções singulares do topo, e a variância de cada componente é o seu valor singular ao quadrado (sobre n−1).

Imagina uma nuvem de pontos esticada e inclinada. O primeiro componente principal é o eixo longo da nuvem, a única direção a captar mais variância. O segundo é perpendicular a ele, captando o máximo do que sobra, e assim por diante. Projeta nos primeiros e manténs a forma enquanto descartas dimensões.

Onde isto aparece no MLA PCA é a ferramenta clássica de redução de dimensionalidade: reduz um conjunto de dados de 1000 variáveis às suas 50 direções mais informativas antes de treinar, cortando ruído e custo computacional. Viabiliza a visualização (projetando para 2-D), a análise de variáveis e o whitening. A mesma imagem de valores próprios/SVD sustenta a aprendizagem de representação moderna, encontrando um pequeno…
▶ PCA via SVD
← SVDMínimos Quadrados →