SVD
线性映射、向量与矩阵的几何与代数
奇异值分解能做到其他分解做不到的事:每个矩阵,不管是方阵还是长方阵、满秩还是不满秩,都能分成三个清晰的几何部分。
从右往左读,任何线性映射都是同样的三步运动:Vᵀ 先旋转输入,使它与右侧坐标轴对齐;Σ(对角矩阵,含非负奇异值 σ₁ ≥ σ₂ ≥ …)沿每个轴缩放;然后 U 把结果旋转到输出空间。输入的圆总会被映成椭圆,而奇异值就是这个椭圆各轴的长度。
在图中,观察单位圆如何变成椭圆;椭圆的半轴长度正好就是奇异值。
在机器学习中的应用SVD 是模型压缩背后的数学。LoRA 用低秩乘积近似权重更新,利用的是有用更新通常只存在于少数高 σ 方向中。PCA 就是对中心化数据做 SVD。截断 SVD 通过只保留主导奇异方向来压缩嵌入表和图像,本质上每次都是同一个“保留大的 σ”的动作。
▶ SVD