Otimização com Restrições

Cálculo multivariável a partir dos primeiros princípios

Muitas vezes não queres o ponto mais baixo de toda a parte; queres o ponto mais baixo sujeito a uma restrição. Minimizar a loss mantendo limitada a norma dos pesos; maximizar a margem sem deixar de classificar corretamente os pontos. Os multiplicadores de Lagrange são a ferramenta padrão para otimizar ao longo de uma curva de restrição.

A geometria a reter: no ótimo restrito, as curvas de nível de f são tangentes à restrição g(x) = 0. Se elas se cruzassem em vez de se tocarem, poderias deslizar ao longo da restrição para um valor melhor. A tangência significa que os dois gradientes apontam ao longo da mesma reta, por isso são paralelos:

O escalar λ (o multiplicador de Lagrange) é o fator de proporcionalidade. Agrupar as duas condições num único objeto dá o Lagrangiano L = f − λg; impor ∇L = 0 recupera exatamente as equações acima.

Onde isto aparece no MLA otimização com restrições está por toda a parte em ML. As support vector machines maximizam uma margem sujeita a restrições de classificação, e o seu problema dual é construído a partir de multiplicadores de Lagrange (através das condições KKT, a extensão que lida com desigualdades). As normas de pesos restritas, as regiões de confiança em RL e os métodos de gradiente projetado remetem todos…

▶ Otimização com Restrições

← Convexidade Taylor Multivariável →