对角化

线性映射、向量与矩阵的几何与代数

对角化会把矩阵改写到它最自然的坐标系中,也就是由特征向量构成的坐标系。在那个系统里,矩阵是对角的:它只会按特征值缩放每条特征轴。一个纠缠的变换变成了简单变换。

这里 P 的列是特征向量,D 是以特征值为对角线的对角矩阵。从右到左读这个乘积,是三步流程:P⁻¹ 转入特征坐标,D 缩放每条轴,P 再转回去。复杂变换被表达成两个视角变化之间的一次纯拉伸。

对角化让矩阵幂几乎免费。因为中间的 P⁻¹P 会两两抵消,Aᵏ = P Dᵏ P⁻¹,而对角矩阵的幂只是把每个对角元素取同样的幂。不需要反复做矩阵乘法。

在机器学习中的应用对角化解释了重复线性映射的长期行为,而几乎每个迭代算法在固定点附近都是重复映射。训练动态是收敛还是爆炸,取决于相关特征值位于单位圆内还是外。同一个思想应用到对称矩阵上,就成为谱分解,支撑 PCA 以及优化器中使用的矩阵平方根。
▶ 对角化
← 特征向量与特征值对称矩阵 →