约束优化
从第一性原理出发的多变量微积分
很多时候,你不想要全空间中的最低点;你想要的是满足约束条件下的最低点。比如在保持权重范数有界时最小化损失;在样本被正确分类时最大化间隔。Lagrange 乘子是沿约束曲线优化的标准工具。
要抓住的几何图像是:在约束最优点处,f 的水平曲线与约束 g(x) = 0 相切。如果它们相交而不是相切,你就还能沿约束滑动到更好的值。相切意味着两个梯度沿同一条直线,因此它们平行:
标量 λ(Lagrange 乘子)是比例因子。把两个条件打包到一个对象中,就得到Lagrangian L = f − λg;设 ∇L = 0 会精确恢复上面的方程。
在机器学习中的应用约束优化在机器学习中无处不在。支持向量机在分类约束下最大化间隔,它的对偶问题由 Lagrange 乘子构建(通过 KKT 条件,这是处理不等式的扩展)。受约束的权重范数、强化学习中的信赖域、投影梯度方法,都可以追溯到“∇f 平行于 ∇g”。乘子 λ 与你经常看到加到损失里的惩罚权重是同一个思想。
▶ 约束优化