通过 SVD 做 PCA

线性映射、向量与矩阵的几何与代数

主成分分析会找出数据变化最大的方向,然后让你只用其中少数几个方向来描述每个点,而不用所有原始特征。它是标准的降维工具,本质上就是把 SVD 应用到数据上。

步骤很短。先中心化数据(减去均值,让点云位于原点附近),再对数据矩阵做 SVD,然后直接读出结果:主成分就是最大的几个奇异方向,而每个成分的方差等于对应奇异值的平方(除以 n−1)。

想象一团被拉长并倾斜的点云。第一主成分就是点云的长轴,也就是捕获最多方差的单一方向。第二主成分与它垂直,捕获剩余变化中最多的部分,依此类推。投影到前几个主成分上,你就能保留形状,同时减少维度。

在机器学习中的应用PCA 是经典的降维工具:训练前把 1000 个特征的数据集压缩到最有信息量的 50 个方向,减少噪声和计算量。它支持可视化(投影到 2D)、特征分析和白化。现代表示学习背后也有同样的特征/SVD 图像:寻找一小组方向来捕获大部分结构。
▶ 通过 SVD 做 PCA
← SVD最小二乘 →