链式法则:矩阵形式

从第一性原理出发的多变量微积分

对路径求和的公式,其实就是把矩阵乘法逐项写开。函数是向量值时,链式法则会压缩成一个干净的 Jacobian 乘积;这也是实际自动微分系统使用的形式。

对复合 f ∘ g,整体的 Jacobian 等于外层映射的 Jacobian(在内层输出处取值)乘以内层映射的 Jacobian:

形状检查会让这件事变得清楚。如果 g: Rⁿ → Rᵏ 且 f: Rᵏ → Rᵐ,那么 J_g 是 k×n,J_f 是 m×k,它们的乘积是 m×n,正好是整体映射 Rⁿ → Rᵐ 所要求的形状。内部维度 k 抵消,就像普通矩阵乘法一样。

在机器学习中的应用这个乘积解释了为什么深度网络会出现梯度消失和梯度爆炸。许多奇异值低于 1 的 Jacobian 相乘,乘积会缩到接近零;如果奇异值高于 1,乘积会爆炸。残差连接、谨慎初始化和归一化都存在的目的,是让这个 Jacobian 乘积保持在健康尺度附近,使梯度能穿过许多层活着传回来。
▶ 链式法则:矩阵形式
← 链式法则:标量复合计算图 →