约束优化

从第一性原理出发的多变量微积分

很多时候，你不想要全空间中的最低点；你想要的是满足约束条件下的最低点。比如在保持权重范数有界时最小化损失；在样本被正确分类时最大化间隔。Lagrange 乘子是沿约束曲线优化的标准工具。

要抓住的几何图像是：在约束最优点处，f 的水平曲线与约束 g(x) = 0 相切。如果它们相交而不是相切，你就还能沿约束滑动到更好的值。相切意味着两个梯度沿同一条直线，因此它们平行：

标量 λ（Lagrange 乘子）是比例因子。把两个条件打包到一个对象中，就得到Lagrangian L = f − λg；设 ∇L = 0 会精确恢复上面的方程。

在机器学习中的应用约束优化在机器学习中无处不在。支持向量机在分类约束下最大化间隔，它的对偶问题由 Lagrange 乘子构建（通过 KKT 条件，这是处理不等式的扩展）。受约束的权重范数、强化学习中的信赖域、投影梯度方法，都可以追溯到“∇f 平行于 ∇g”。乘子 λ 与你经常看到加到损失里的惩罚权重是同一个思想。

▶ 约束优化

← 凸性多变量 Taylor 展开 →