高阶偏导数

从第一性原理出发的多变量微积分

就像一维函数有二阶导数一样,多变量函数也有二阶偏导数。你要连续求导两次。新的细节是:每次你都可以选择对哪个变量求导;而当你混合不同变量时,会出现一个很整洁的结果。

纯二阶偏导 ∂²f/∂x² 和 ∂²f/∂y² 测量沿各坐标轴的曲率。混合偏导 ∂²f/∂x∂y 先对 y 求导,再对 x 求导;它测量一个方向上的斜率在另一个方向移动时如何变化。

一阶偏导数告诉你山坡的陡峭程度;二阶偏导数告诉你这种陡峭程度本身在你移动时是如何变化的,也就是坡度的曲率。向东走时,地面是继续变得更陡还是开始变得平缓?当你继续向东推进时,向东坡度 ∂f/∂x 的这种弯曲程度就是二阶偏导数 ∂²f/∂x²,即山丘沿该方向的曲率。

在机器学习中的应用这种对称性解释了为什么Hessian,也就是损失函数所有二阶偏导组成的矩阵,会是对称的:Hᵢⱼ = ∂²L/∂wᵢ∂wⱼ = ∂²L/∂wⱼ∂wᵢ = Hⱼᵢ。对称矩阵有实特征值和正交特征向量(来自线性代数),这让我们能清楚地把损失曲面的曲率读成碗、穹顶或鞍点。
▶ 高阶偏导数
← 偏导数梯度 →