Cálculo multivariável a partir dos primeiros princípios
Muitas vezes não queres o ponto mais baixo de toda a parte; queres o ponto mais baixo sujeito a uma restrição. Minimizar a loss mantendo limitada a norma dos pesos; maximizar a margem sem deixar de classificar corretamente os pontos. Os multiplicadores de Lagrange são a ferramenta padrão para otimizar ao longo de uma curva de restrição.
A geometria a reter: no ótimo restrito, as curvas de nível de f são tangentes à restrição g(x) = 0. Se elas se cruzassem em vez de se tocarem, poderias deslizar ao longo da restrição para um valor melhor. A tangência significa que os dois gradientes apontam ao longo da mesma reta, por isso são paralelos:
O escalar λ (o multiplicador de Lagrange) é o fator de proporcionalidade. Agrupar as duas condições num único objeto dá o Lagrangiano L = f − λg; impor ∇L = 0 recupera exatamente as equações acima.