Jacobian 矩阵
从第一性原理出发的多变量微积分
当输出也是向量时,即函数 f: Rⁿ → Rᵐ,一个梯度就不够了。你需要每个输出对每个输入的偏导数。把它们全部堆成一个矩阵,就得到 Jacobian J,也就是向量值映射的完整一阶导数。
J 的第 i 行就是第 i 个输出的梯度。所以 Jacobian 是一堆梯度,每个输出坐标一个。它的形状是 m × n:行数等于输出数,列数等于输入数。
想象一个音响工程师的调音台,每个输出通道都会对每个输入旋钮做出响应。雅可比矩阵就是写出来的那个敏感度表:每个条目说明当你轻推一个输入旋钮时,一个输出变动了多少。横向读取一行可以看到驱动单个输出的所有因素;纵向读取一列可以看到一个旋钮控制的所有对象。
在机器学习中的应用一层的 Jacobian 说明输入的一个小扰动如何改变输出,也就是该层局部的拉伸与压缩。反向传播只是把这些逐层 Jacobian 相乘(下一个模块)。当人们担心梯度消失或爆炸时,他们担心的就是这串层 Jacobian 的乘积缩到零或爆炸。
▶ Jacobian 矩阵