PCA via SVD

Meetkunde en algebra van lineaire afbeeldingen, vectoren en matrices

Hoofdcomponentenanalyse vindt de richtingen waarin je data het meest varieert, en laat je dan elk punt beschrijven met slechts enkele van die richtingen in plaats van alle oorspronkelijke kenmerken. Het is het standaardgereedschap voor dimensiereductie, en onder de motorkap is het SVD toegepast op je data.

Het recept is kort. Centreer de data (trek het gemiddelde af zodat de wolk in de oorsprong ligt), neem de SVD van de datamatrix, en lees de antwoorden af: de hoofdcomponenten zijn de bovenste singuliere richtingen, en de variantie van elke component is zijn singuliere waarde in het kwadraat (gedeeld door n−1).

Stel je een uitgerekte, gekantelde puntenwolk voor. De eerste hoofdcomponent is de lange as van de wolk, de enkele richting die de meeste variantie vangt. De tweede staat er loodrecht op en vangt het meeste van wat overblijft, enzovoort. Projecteer op de eerste paar en je behoudt de vorm terwijl je dimensies afwerpt.

Waar dit voorkomt in MLPCA is het klassieke dimensiereductie-gereedschap: krimp een dataset met 1000 kenmerken tot zijn 50 meest informatieve richtingen vóór het trainen, wat ruis en rekenkracht bespaart. Het drijft visualisatie aan (projecteren naar 2-D), kenmerkanalyse en whitening. Hetzelfde eigen/SVD-beeld ligt ten grondslag aan moderne representatieleer, het vinden van een kleine verzameling richtingen die het…

▶ PCA via SVD

← SVD Kleinste kwadraten →