乘积法则与商法则
从第一性原理出发的单变量微积分
当两个函数相乘时,不能只是把它们的导数相乘。这个捷径很诱人,但它是错的。正确规则要考虑到两个因子都在同时变化。
想象一个矩形,宽是 f,高是 g;它的面积是 f·g。如果两条边都稍微增长,面积会从两个方向增加:宽度变大产生一条带,高度变大又产生一条带。所以答案有两项,而不是一项。
想象一个长方形花园,其宽度和长度同时在扩张。新的面积不仅是一条带子,你在较长的宽度上获得了一条带子,并且在较长的高度上获得了一条带子。这就是乘积法则有两个项的原因:当两个变化的量相乘时,每一个的增长都为总数贡献了自己的一份份额。
在机器学习中的应用这些规则是自动微分组合起来的积木。像 softmax 概率或注意力权重这样的归一化分数就是一个商(某个量除以一个和),对它求导时底层会使用商法则。Batch-norm 的缩放、layer-norm 中除以标准差:只要网络把一个学到的量除以另一个量,梯度引擎就在应用商法则。
▶ 乘积法则与商法则