Optimisation sous contrainte

Calcul multivarié depuis les premiers principes

Souvent, vous ne voulez pas le point le plus bas partout ; vous voulez le point le plus bas sous une contrainte. Minimiser la perte tout en gardant la norme des poids bornée ; maximiser la marge tout en gardant les points correctement classés. Les multiplicateurs de Lagrange sont l'outil standard pour optimiser le long d'une courbe de contrainte.

La géométrie à retenir : à l'optimum contraint, les lignes de niveau de f sont tangentes à la contrainte g(x) = 0. Si elles se croisaient au lieu de se toucher, vous pourriez glisser le long de la contrainte vers une meilleure valeur. La tangence signifie que les deux gradients pointent le long de la même droite, donc ils sont parallèles :

Le scalaire λ (le multiplicateur de Lagrange) est le facteur de proportionnalité. Regrouper les deux conditions en un seul objet donne le lagrangien L = f − λg ; poser ∇L = 0 redonne exactement les équations ci-dessus.

Où cela apparaît en MLL'optimisation sous contrainte est partout en apprentissage automatique. Les machines à vecteurs de support maximisent une marge sous des contraintes de classification, et leur problème dual est construit à partir des multiplicateurs de Lagrange (via les conditions KKT, l'extension qui traite les inégalités). Les normes de poids contraintes, les régions de confiance en apprentissage par…

▶ Optimisation sous contrainte

← Convexité Taylor multivarié →