Cálculo multivariável a partir dos primeiros princípios
Muitas vezes você não quer o ponto mais baixo de toda parte; quer o ponto mais baixo sujeito a uma restrição. Minimizar a loss mantendo limitada a norma dos pesos; maximizar a margem sem deixar de classificar corretamente os pontos. Os multiplicadores de Lagrange são a ferramenta padrão para otimizar ao longo de uma curva de restrição.
A geometria para segurar: no ótimo restrito, as curvas de nível de f são tangentes à restrição g(x) = 0. Se elas se cruzassem em vez de se tocar, você poderia deslizar ao longo da restrição para um valor melhor. Tangência significa os dois gradientes apontam ao longo da mesma reta, então são paralelos:
O escalar λ (o multiplicador de Lagrange) é o fator de proporcionalidade. Agrupar as duas condições num único objeto dá o Lagrangiano L = f − λg; impor ∇L = 0 recupera exatamente as equações acima.