선형 사상, 벡터, 행렬의 기하학과 대수
주성분 분석은 데이터가 가장 많이 변하는 방향을 찾아 줍니다. 그러면 각 점을 원래의 모든 특성 대신 그중 몇 개의 방향만으로 설명할 수 있습니다. 이는 차원 축소의 표준 도구이며, 그 속을 들여다보면 데이터에 적용한 SVD입니다.
레시피는 짧습니다. 데이터를 중심화하고(평균을 빼서 점 구름을 원점에 놓고), 데이터 행렬의 SVD를 취한 뒤 답을 읽어 냅니다. 주성분은 상위 특이 방향들이며, 각 성분의 분산은 그 특이값을 제곱한 값입니다(n−1로 나눈 것).
길게 늘어나고 비스듬히 기운 점 구름을 떠올려 보세요. 제1주성분은 그 구름의 긴 축, 즉 분산을 가장 많이 포착하는 단일 방향입니다. 제2주성분은 그것에 수직이면서 남은 분산을 가장 많이 포착하고, 이런 식으로 이어집니다. 처음 몇 개에 투영하면 형태는 유지한 채 차원을 덜어 낼 수 있습니다.