梯度

从第一性原理出发的多变量微积分

把 f 的所有偏导数收集到一个向量里,就得到梯度,记作 ∇f(“grad f”)。深度学习中的每个优化器都依赖这个对象,所以它理应成为这门课的核心。

梯度不只是记账。作为输入空间中的向量,它有方向和长度,二者都有意义。它的方向是最陡上升方向:沿着 ∇f 指向前进,函数会以可能的最快速度上升。它的长度 ‖∇f‖ 正好就是这个上升有多陡。

想象自己站在雾中的长满草的山丘上。梯度 ∇f 是指向斜坡最陡峭部分正上方的箭头,它的长度告诉你这段攀爬有多么折磨人。放下一个球并松手:它会沿着完全相反的方向滚落,走最快向下的路径。

在机器学习中的应用站在损失曲面上,你想尽可能快地下坡。梯度 ∇L 指向最陡上升,所以你要减去它:w ← w − η∇L,这就是 SGD、Adam 和所有其他优化器背后的更新。反向传播存在的原因只有一个:高效计算这个向量。
▶ 梯度
← 高阶偏导数方向导数 →