Rⁿ 中的临界点

从第一性原理出发的多变量微积分

多维优化的起点和一维完全一样：找到斜率为零的地方。但现在“斜率”是整个梯度向量，所以临界点是指每个偏导数同时消失的点，即 ∇f = 0。

这是必要条件，但不是充分条件：零梯度可以标记最小值、最大值或鞍点。要把它们区分开，需要引入 Hessian 并读取它的特征值符号，也就是第 13 课的二阶测试。零梯度定位候选点；Hessian 负责分类。

走在一个多山的高尔夫球场上，寻找平坦的区域，也就是球能静止不动的地方。山顶上的发球台、低洼处的果岭以及沿山脊的平坦马鞍面，都是地面在每个方向上瞬间变得平坦的地方。这种平坦性就是 ∇f = 0；至于你是在山峰上、在洼地中，还是在马鞍面上，那是海森矩阵来回答的另一个问题。

在机器学习中的应用每一次基于梯度的训练，都是在寻找 ∇L = 0：优化器不断前进，直到梯度小到可以忽略。由于鞍点的故事（第 13 课），它通常找到的不是“那个”全局最小值，而是海量近似等价的低损失区域之一。梯度下降能可靠地落到一个足够好的区域，是深度学习的经验之谜，也是它成功的很大一部分。