Mathematics for Machine Learning · 微积分 II · 雅可比矩阵与海森矩阵
Hessian 的几何意义
从第一性原理出发的多变量微积分
Hessian 的特征值把“这是哪种临界点?”这个模糊问题变成一张清晰的检查表。在梯度为零的点处,Hessian 特征值的符号告诉你自己是在碗里、穹顶上,还是在鞍点处。
这就是多变量二阶导数测试,也是对一维情形的直接推广:在一维中,f″ > 0 表示最小值,f″ 表示最大值。Hessian 的特征值就是多个方向上对应的那些数。
想象三种零食。一碗汤无论你向哪个方向倾斜它都向上弯曲,一个冰淇淋圆顶在任何地方都向下弯曲,而品客薯片沿着它的长度向上弯曲,但穿过它的宽度向下弯曲。海森矩阵的特征值仅仅是沿着这些特殊方向的曲率:相同的符号意味着碗或圆顶,相反的符号(例如 2 和 −2)意味着薯片,即马鞍。
在机器学习中的应用 在高维中,鞍点远多于局部最小值。对 n 维中的随机临界点来说,所有 n 个特征值都必须同号,它才可能是真正的最小值或最大值,而这在指数意义上不太可能。因此训练深度网络主要是在逃离鞍点:这些地方梯度很小,但你离底部还很远,而不是被糟糕的局部最小值困住。这种重新理解正是深度学习能够有效工作的重要原因。
▶ Hessian 的几何意义
Mathematics for Machine Learning — interactive lessons, draggable figures, 1,000+ auto-graded problems.