SVD를 통한 PCA

선형 사상, 벡터, 행렬의 기하학과 대수

주성분 분석은 데이터가 가장 많이 변하는 방향을 찾아 줍니다. 그러면 각 점을 원래의 모든 특성 대신 그중 몇 개의 방향만으로 설명할 수 있습니다. 이는 차원 축소의 표준 도구이며, 그 속을 들여다보면 데이터에 적용한 SVD입니다.

레시피는 짧습니다. 데이터를 중심화하고(평균을 빼서 점 구름을 원점에 놓고), 데이터 행렬의 SVD를 취한 뒤 답을 읽어 냅니다. 주성분은 상위 특이 방향들이며, 각 성분의 분산은 그 특이값을 제곱한 값입니다(n−1로 나눈 것).

길게 늘어나고 비스듬히 기운 점 구름을 떠올려 보세요. 제1주성분은 그 구름의 긴 축, 즉 분산을 가장 많이 포착하는 단일 방향입니다. 제2주성분은 그것에 수직이면서 남은 분산을 가장 많이 포착하고, 이런 식으로 이어집니다. 처음 몇 개에 투영하면 형태는 유지한 채 차원을 덜어 낼 수 있습니다.

머신러닝에서의 위치PCA는 고전적인 차원 축소 도구입니다. 학습에 앞서 특성이 1000개인 데이터셋을 가장 정보량이 큰 50개 방향으로 줄여 노이즈와 계산량을 덜어 냅니다. 또한 시각화(2차원 투영), 특성 분석, 백색화를 구동합니다. 똑같은 고유/SVD 그림이 현대 표현 학습의 바탕에 깔려 있는데, 구조의 대부분을 포착하는 소수의 방향 집합을 찾는 것입니다.
▶ SVD를 통한 PCA
← SVD최소제곱법 →