从第一性原理出发的多变量微积分
把 f 的所有偏导数收集到一个向量里,就得到梯度,记作 ∇f(“grad f”)。深度学习中的每个优化器都依赖这个对象,所以它理应成为这门课的核心。
梯度不只是记账。作为输入空间中的向量,它有方向和长度,二者都有意义。它的方向是最陡上升方向:沿着 ∇f 指向前进,函数会以可能的最快速度上升。它的长度 ‖∇f‖ 正好就是这个上升有多陡。
想象自己站在雾中的长满草的山丘上。梯度 ∇f 是指向斜坡最陡峭部分正上方的箭头,它的长度告诉你这段攀爬有多么折磨人。放下一个球并松手:它会沿着完全相反的方向滚落,走最快向下的路径。