Hessian 矩阵

从第一性原理出发的多变量微积分

梯度打包了所有一阶导数。Hessian 则把标量函数 f: Rⁿ → R 的所有二阶导数打包成一个矩阵。梯度给出斜率;Hessian 给出曲率:也就是当你移动时,斜率本身如何变化。

根据 Clairaut 定理(第 6 课),Hᵢⱼ = Hⱼᵢ,所以对我们关心的光滑函数,Hessian 总是对称的。这是一个礼物:对称矩阵有实特征值和正交特征向量,而这些特征值正好就是主方向上的曲率。

如果梯度是曲面的速度计,那么海森矩阵就是它的曲率仪表盘:它同时报告坡度本身在每个方向上的弯曲情况。一个在你四周都向上弯曲的曲面看起来像谷底;四周都向下弯曲看起来像圆顶的顶部;一个方向向上而另一个方向向下则是马鞍。海森矩阵将所有这些打包进一个由二阶导数组成的对称网格中。

在机器学习中的应用当梯度下降沿着又长又窄的山谷慢慢爬行,并在陡峭的墙之间来回反弹时,Hessian 解释了原因。它的特征值是各方向曲率;特征值差异很大(高条件数)正对应这种山谷:一个方向很陡,另一个方向几乎平坦。Newton 法等二阶方法,以及在精神上 Adam 的逐参数缩放,都会读取 Hessian 来校正这一点并拉直路径。
▶ Hessian 矩阵
← Jacobian 的几何意义Hessian 的几何意义 →