链式法则:标量复合
从第一性原理出发的多变量微积分
把反向传播剥到数学核心,就会得到这个模块。多变量链式法则告诉你如何对函数复合求导,而这正是自动微分引擎真正做的事。我们从标量版本开始:一个输入的变化如何通过中间变量一路传到输出。
假设 z 依赖中间变量 y₁, y₂, …,而这些中间变量又依赖输入 x。要找 z 如何随某个输入变化,就要对从该输入到输出的每条路径求和,并把每条路径上的导数相乘:
每一项 (∂z/∂yₖ)(∂yₖ/∂xᵢ) 是一条路径的贡献;你把所有路径加起来。如果只有一条路径,它就退化成熟悉的一维链式法则。
在机器学习中的应用这种对路径求和正是网络中一个节点的反向传播。每个中间量 yₖ 是神经元激活;∂z/∂yₖ 是流回它的梯度;∂yₖ/∂xᵢ 是该操作的局部导数。相乘再相加,就把梯度向后传播了一步。对整个图重复这一步,就完成了模型训练。
▶ 链式法则:标量复合