二次型

线性映射、向量与矩阵的几何与代数

二次型 xᵀAx 接收一个向量并返回一个数,这个数随 x 二次变化,是 ax² 的矩阵版本。当 x 遍历所有方向时,这个数描出一个曲面,而矩阵 A(取为对称)决定这个曲面的形状。

它的特征值就是沿特征轴方向的曲率,而它们的符号能完全分类这个曲面。全为正:向上开的碗(正定),有干净的最小值。全为负:穹顶(负定),有最大值。符号混合:鞍面(不定),有些方向向上,有些方向向下。

在图中切换特征值符号,观察曲面如何在碗、穹顶和鞍面之间变形。

在机器学习中的应用二次型 δᵀHδ 是损失函数 Taylor 展开中的二阶项;它就是局部曲率。正定 Hessian 表示局部最小值(碗);不定 Hessian 表示鞍点,而高维损失曲面中到处都是鞍点。这种曲率分析推动了二阶优化器(Newton 法),也解释了为什么训练会逃离鞍点,而不是卡在最小值处。
▶ 二次型
← 投影向量与 Rⁿ 的几何 →