多变量 Taylor 展开

从第一性原理出发的多变量微积分

线性近似(第 9 课)只使用梯度,给出一个平坦的切平面。加入下一项,也就是由 Hessian 构成的项,就得到二次近似:一个贴合曲面的抛物面,它捕捉曲率,而不只是倾斜。

读这三部分:f(x) 是高度,∇fᵀδ 是线性(斜率)修正,½δᵀHδ 是二次(曲率)修正。最后一项是步长上的一个二次型,正是 Hessian 的特征值符号所控制的对象。

一个放在曲面上的平坦切平面就像把一块坚硬的载玻片放在你的眼睛上:它在一个点接触,但在其他各处都有间隙。隐形眼镜做得更好,因为它被弯曲成与眼睛的表面相匹配,不仅匹配眼睛所在的位置,还匹配它的弯曲程度。海森矩阵项 ½δᵀHδ 就是那种内置的曲率:它让这种近似紧贴表面,而不仅仅是停留在其上。

在机器学习中的应用与其一次次用小梯度步慢慢下坡,你也可以给损失拟合一个抛物面,然后直接跳到它的底部。这就是 Newton 法:它精确最小化局部二次式,步长为 δ = −H⁻¹∇f;当曲率变化很大时,它比普通梯度下降收敛快得多。Adam 等方法也在用便宜的逐参数方式追求类似的曲率校正,而不需要真的形成完整且巨大的 Hessian。
▶ 多变量 Taylor 展开
← 约束优化二重积分 →