梯度

从第一性原理出发的多变量微积分

把 f 的所有偏导数收集到一个向量里，就得到梯度，记作 ∇f（“grad f”）。深度学习中的每个优化器都依赖这个对象，所以它理应成为这门课的核心。

梯度不只是记账。作为输入空间中的向量，它有方向和长度，二者都有意义。它的方向是最陡上升方向：沿着 ∇f 指向前进，函数会以可能的最快速度上升。它的长度 ‖∇f‖ 正好就是这个上升有多陡。

想象自己站在雾中的长满草的山丘上。梯度 ∇f 是指向斜坡最陡峭部分正上方的箭头，它的长度告诉你这段攀爬有多么折磨人。放下一个球并松手：它会沿着完全相反的方向滚落，走最快向下的路径。

在机器学习中的应用站在损失曲面上，你想尽可能快地下坡。梯度 ∇L 指向最陡上升，所以你要减去它：w ← w − η∇L，这就是 SGD、Adam 和所有其他优化器背后的更新。反向传播存在的原因只有一个：高效计算这个向量。