PCA via SVD

Geometria e álgebra de aplicações lineares, vetores e matrizes

Análise de componentes principais encontra as direções em que seus dados mais variam, depois permite descrever cada ponto usando apenas algumas dessas direções em vez de todas as variáveis originais. É a ferramenta padrão para redução de dimensionalidade e, nos bastidores, não passa de SVD aplicada aos seus dados.

A receita é curta. Centralize os dados (subtraia a média para que a nuvem fique na origem), faça o SVD da matriz de dados, e leia as respostas: os componentes principais são as direções singulares do topo, e a variância de cada componente é seu valor singular ao quadrado (sobre n−1).

Imagine uma nuvem de pontos esticada e inclinada. O primeiro componente principal é o eixo longo da nuvem, a única direção capturando mais variância. O segundo é perpendicular a ele, capturando o máximo do que sobra, e assim por diante. Projete nos primeiros e você mantém a forma enquanto descarta dimensões.

Onde isso aparece no MLPCA é a ferramenta clássica de redução de dimensionalidade: reduza um conjunto de dados de 1000 variáveis às suas 50 direções mais informativas antes de treinar, cortando ruído e custo computacional. Ela viabiliza a visualização (projetando para 2-D), a análise de variáveis e o whitening. A mesma imagem de autovalores/SVD sustenta o aprendizado de representação moderno, encontrando um pequeno…
▶ PCA via SVD
← SVDMínimos Quadrados →