Geometria i algebra odwzorowań liniowych, wektorów i macierzy
Analiza głównych składowych (PCA) znajduje kierunki, w których Twoje dane różnią się najbardziej, a następnie pozwala Ci opisać każdy punkt za pomocą tylko kilku z tych kierunków, zamiast wszystkich oryginalnych cech. Jest to standardowe narzędzie do redukcji wymiarowości, a pod maską to po prostu SVD zastosowane do Twoich danych.
Przepis jest krótki. Wycentruj dane (odejmij średnią, aby chmura punktów znajdowała się w początku układu współrzędnych), zastosuj SVD do macierzy danych i odczytaj odpowiedzi: główne składowe to czołowe kierunki osobliwe, a wariancja każdej składowej to jej wartość osobliwa podniesiona do kwadratu (podzielona przez n−1).
Wyobraź sobie rozciągniętą, przechyloną chmurę punktów. Pierwsza główna składowa (PC1) to najdłuższa oś tej chmury, pojedynczy kierunek przechwytujący najwięcej wariancji. Druga składowa (PC2) jest do niej prostopadła, przechwytując najwięcej z tego, co zostało, i tak dalej. Zrzutuj dane na kilka pierwszych składowych, a zachowasz ich kształt, jednocześnie pozbywając się zbędnych wymiarów.