梯度下降预览 — 微积分 I · Mathematics for Machine Learning

假设你想找到曲线的最低点，但你只能感受到脚下地面的斜率，看不到别的。你该怎么办？很简单：朝下坡方向走一步，然后再感受，再走一步。重复。这就是梯度下降，几乎所有现代 AI 模型都是用它训练的。

想象在浓雾中下山，雾大到你看不清前面的一步路。你找不到谷底，但你依然可以用脚试探出地面向下倾斜的方向，然后朝那个方向迈出一步。试探，迈步，试探，迈步。梯度下降正是这种盲目而耐心地向最低处摸索前行的过程。

在机器学习中的应用这一行就是深度学习中每个优化器的核心。权重更新在精神上完全相同：w ← w − η∇L，其中 ∇L 只是下一门课中的多维导数（梯度）。SGD、Adam、RMSProp 等都是这个骨架的改进——更聪明的步长、动量、每个参数自己的速率——但骨架正是上面的规则。非凸性解释了为什么深度网络没有唯一的“那个”最小值，为什么不同随机初始化的两次训练会落到不同位置，以及为什么学习率是最重要的调参旋钮。