PCA poprzez SVD

Geometria i algebra odwzorowań liniowych, wektorów i macierzy

Analiza głównych składowych (PCA) znajduje kierunki, w których Twoje dane różnią się najbardziej, a następnie pozwala Ci opisać każdy punkt za pomocą tylko kilku z tych kierunków, zamiast wszystkich oryginalnych cech. Jest to standardowe narzędzie do redukcji wymiarowości, a pod maską to po prostu SVD zastosowane do Twoich danych.

Przepis jest krótki. Wycentruj dane (odejmij średnią, aby chmura punktów znajdowała się w początku układu współrzędnych), zastosuj SVD do macierzy danych i odczytaj odpowiedzi: główne składowe to czołowe kierunki osobliwe, a wariancja każdej składowej to jej wartość osobliwa podniesiona do kwadratu (podzielona przez n−1).

Wyobraź sobie rozciągniętą, przechyloną chmurę punktów. Pierwsza główna składowa (PC1) to najdłuższa oś tej chmury, pojedynczy kierunek przechwytujący najwięcej wariancji. Druga składowa (PC2) jest do niej prostopadła, przechwytując najwięcej z tego, co zostało, i tak dalej. Zrzutuj dane na kilka pierwszych składowych, a zachowasz ich kształt, jednocześnie pozbywając się zbędnych wymiarów.

Gdzie to występuje w MLPCA to klasyczne narzędzie redukcji wymiarowości: skurcz dataset zawierający 1000 cech do jego 50 najbardziej informatywnych kierunków przed rozpoczęciem treningu, redukując szum i koszty obliczeniowe. Napędza wizualizację (rzutowanie do 2D), analizę cech i tzw. wybielanie (whitening). Ten sam obraz SVD/wektorów własnych stanowi fundament współczesnego uczenia reprezentacji (representation…

▶ PCA poprzez SVD

← SVD Najmniejsze kwadraty →