Geometri dan aljabar pemetaan linear, vektor, dan matriks
Principal component analysis mencari arah tempat datamu paling banyak bervariasi, lalu memungkinkan kamu mendeskripsikan setiap titik hanya dengan beberapa arah itu, bukan semua fitur asli. Ini alat standar untuk reduksi dimensi, dan di balik layar ia adalah SVD yang diterapkan pada datamu.
Resepnya singkat. Pusatkan data (kurangi mean sehingga awan titik berada di titik asal), ambil SVD dari matriks data, lalu baca jawabannya: principal component adalah arah singular teratas, dan varians setiap komponen adalah singular value kuadrat (dibagi n−1).
Bayangkan awan titik yang teregang dan miring. Principal component pertama adalah sumbu panjang awan itu, satu arah yang menangkap varians terbanyak. Yang kedua tegak lurus terhadapnya, menangkap sisa terbesar, dan seterusnya. Proyeksikan ke beberapa yang pertama dan kamu mempertahankan bentuk sambil membuang dimensi.