PCA via SVD

Geometria e algebra di applicazioni lineari, vettori e matrici

La analisi delle componenti principali trova le direzioni in cui i tuoi dati variano di più, poi ti permette di descrivere ciascun punto con solo alcune di quelle direzioni invece di tutte le feature originali. È lo strumento standard per la riduzione della dimensionalità, e sotto il cofano è SVD applicata ai tuoi dati.

La ricetta è breve. Centra i dati (sottrai la media così la nuvola si trova all'origine), prendi la SVD della matrice dei dati, e leggi le risposte: le componenti principali sono le direzioni singolari in cima, e la varianza di ciascuna componente è il suo valore singolare al quadrato (su n−1).

Immagina una nuvola di punti allungata e inclinata. La prima componente principale è l'asse lungo della nuvola, la singola direzione che cattura più varianza. La seconda è perpendicolare ad essa, cattura il massimo di ciò che resta, e così via. Proietta sulle prime e mantieni la forma perdendo dimensioni.

Dove si trova nel MLLa PCA è il classico strumento di riduzione della dimensionalità: restringi un dataset a 1000 feature alle sue 50 direzioni più informative prima dell'addestramento, tagliando rumore e calcolo. Alimenta la visualizzazione (proietta in 2-D), l'analisi delle feature, e il whitening. Lo stesso quadro autovalori/SVD sta alla base dell'apprendimento di rappresentazioni moderno, trovando un piccolo…
▶ PCA via SVD
← SVDMinimi Quadrati →