链式法则
从第一性原理出发的单变量微积分
链式法则是反向传播建立在其上的规则。它告诉你如何对复合函数求导:一个函数套在另一个函数里面,例如 f(g(x))。
要对“外层套内层”求导,先取外层导数(保持内层不变),再乘以内层导数。变化率会沿着这条链相乘。
把它想成一条流水线:x → g → f。对 x 的一点扰动先被 g′ 放大,然后这个扰动又被 f′ 放大。总放大倍数就是两者的乘积。图中展示了导数如何沿复合过程相乘。
在机器学习中的应用反向传播就是链式法则,沿网络反向运行。深度网络是一个巨大的复合函数(一层接一层),损失对早期权重的梯度就是沿路径把每一层的局部导数相乘。这就是“梯度消失”发生的原因:许多小导数相乘后,乘积会缩小到几乎为零。链式法则不是像反向传播;它就是反向传播。
▶ 链式法则