特殊矩阵
线性映射、向量与矩阵的几何与代数
有些矩阵出现得非常频繁,几何意义又很干净,所以它们有专门的名字。一眼认出它们能省下大量工作。
单位矩阵 I 的对角线上是 1,其余位置是 0。它是“什么也不做”的映射:对每个向量都有 Ix = x。对角矩阵只在对角线上有非零项;它独立拉伸每个坐标轴,其中元素 dᵢ 缩放第 i 个坐标,没有混合。
把这想象成一个调音台。单位矩阵(identity matrix)I 就是每个滑块都停在 1:信号原封不动地通过,完全就是“什么也不做”。一个对角矩阵(diagonal matrix)是一组独立的音量滑块 — 每个滑块各自增强或减弱单个频道,没有一个频道会串音到另一个频道中。
在机器学习中的应用正交映射能保持信号尺度良好。正交权重初始化让层一开始就是保持长度的映射,使激活和梯度穿过许多层时既不爆炸也不消失。对角矩阵作为逐特征缩放出现在 batch norm 中,而单位矩阵是残差连接 x + f(x) 的骨架:这条“什么也不做”的路径让梯度能直接流过。
▶ 特殊矩阵