链式法则

从第一性原理出发的单变量微积分

链式法则是反向传播建立在其上的规则。它告诉你如何对复合函数求导：一个函数套在另一个函数里面，例如 f(g(x))。

要对“外层套内层”求导，先取外层导数（保持内层不变），再乘以内层导数。变化率会沿着这条链相乘。

把它想成一条流水线：x → g → f。对 x 的一点扰动先被 g′ 放大，然后这个扰动又被 f′ 放大。总放大倍数就是两者的乘积。图中展示了导数如何沿复合过程相乘。

在机器学习中的应用反向传播就是链式法则，沿网络反向运行。深度网络是一个巨大的复合函数（一层接一层），损失对早期权重的梯度就是沿路径把每一层的局部导数相乘。这就是“梯度消失”发生的原因：许多小导数相乘后，乘积会缩小到几乎为零。链式法则不是像反向传播；它就是反向传播。