梯度下降预览

从第一性原理出发的单变量微积分

假设你想找到曲线的最低点,但你只能感受到脚下地面的斜率,看不到别的。你该怎么办?很简单:朝下坡方向走一步,然后再感受,再走一步。重复。这就是梯度下降,几乎所有现代 AI 模型都是用它训练的。

想象在浓雾中下山,雾大到你看不清前面的一步路。你找不到谷底,但你依然可以用脚试探出地面向下倾斜的方向,然后朝那个方向迈出一步。试探,迈步,试探,迈步。梯度下降正是这种盲目而耐心地向最低处摸索前行的过程。

写成每一步更新位置的规则:

在机器学习中的应用这一行就是深度学习中每个优化器的核心。权重更新在精神上完全相同:w ← w − η∇L,其中 ∇L 只是下一门课中的多维导数(梯度)。SGD、Adam、RMSProp 等都是这个骨架的改进——更聪明的步长、动量、每个参数自己的速率——但骨架正是上面的规则。 非凸性解释了为什么深度网络没有唯一的“那个”最小值,为什么不同随机初始化的两次训练会落到不同位置,以及为什么学习率是最重要的调参旋钮。
▶ 梯度下降预览
← 凸性系统化画图流程 →