Rⁿ 中的临界点

从第一性原理出发的多变量微积分

多维优化的起点和一维完全一样:找到斜率为零的地方。但现在“斜率”是整个梯度向量,所以临界点是指每个偏导数同时消失的点,即 ∇f = 0。

这是必要条件,但不是充分条件:零梯度可以标记最小值、最大值或鞍点。要把它们区分开,需要引入 Hessian 并读取它的特征值符号,也就是第 13 课的二阶测试。零梯度定位候选点;Hessian 负责分类。

走在一个多山的高尔夫球场上,寻找平坦的区域,也就是球能静止不动的地方。山顶上的发球台、低洼处的果岭以及沿山脊的平坦马鞍面,都是地面在每个方向上瞬间变得平坦的地方。这种平坦性就是 ∇f = 0;至于你是在山峰上、在洼地中,还是在马鞍面上,那是海森矩阵来回答的另一个问题。

在机器学习中的应用每一次基于梯度的训练,都是在寻找 ∇L = 0:优化器不断前进,直到梯度小到可以忽略。由于鞍点的故事(第 13 课),它通常找到的不是“那个”全局最小值,而是海量近似等价的低损失区域之一。梯度下降能可靠地落到一个足够好的区域,是深度学习的经验之谜,也是它成功的很大一部分。
▶ Rⁿ 中的临界点
← 计算图凸性 →