Otimização com Restrições

Cálculo multivariável a partir dos primeiros princípios

Muitas vezes você não quer o ponto mais baixo de toda parte; quer o ponto mais baixo sujeito a uma restrição. Minimizar a loss mantendo limitada a norma dos pesos; maximizar a margem sem deixar de classificar corretamente os pontos. Os multiplicadores de Lagrange são a ferramenta padrão para otimizar ao longo de uma curva de restrição.

A geometria para segurar: no ótimo restrito, as curvas de nível de f são tangentes à restrição g(x) = 0. Se elas se cruzassem em vez de se tocar, você poderia deslizar ao longo da restrição para um valor melhor. Tangência significa os dois gradientes apontam ao longo da mesma reta, então são paralelos:

O escalar λ (o multiplicador de Lagrange) é o fator de proporcionalidade. Agrupar as duas condições num único objeto dá o Lagrangiano L = f − λg; impor ∇L = 0 recupera exatamente as equações acima.

Onde isso aparece no MLA otimização com restrições está por toda parte em ML. As support vector machines maximizam uma margem sujeita a restrições de classificação, e seu problema dual é construído a partir de multiplicadores de Lagrange (através das condições KKT, a extensão que lida com desigualdades). As normas de pesos restritas, as regiões de confiança em RL e os métodos de gradiente projetado remetem todos a '∇f…

▶ Otimização com Restrições

← Convexidade Taylor Multivariável →