Regressão Regularizada

Inferência, estimação e tomada de decisão a partir de dados

O OLS encontra os coeficientes que melhor ajustam os dados de treino, o que é precisamente o problema quando você tem muitas variáveis ou poucos dados: ele ajusta também o ruído, e os coeficientes disparam para valores descontrolados. A regressão regularizada domestica isto acrescentando uma penalização que castiga os coeficientes grandes, trocando um pouco de ajuste aos dados de treino por uma generalização muito melhor.

A regressão ridge acrescenta uma penalização L2, o comprimento ao quadrado do vetor de coeficientes:

O parâmetro λ regula a intensidade. Com λ = 0 você tem o OLS puro; à medida que λ cresce, todos os coeficientes são encolhidos em direção a zero, suavizando o modelo. Este encolhimento também corrige o (XᵀX)⁻¹ mal condicionado da lição anterior: a regressão ridge acrescenta λI, garantindo a invertibilidade.

Onde isso aparece no MLA penalização ridge é o decaimento de pesos (weight decay), o regularizador mais comum em deep learning, presente em praticamente todos os otimizadores. E, como você viu na lição 8, ridge = MAP com um prior gaussiano, lasso = MAP com um prior de Laplace. Regularização, decaimento de pesos e priors bayesianos são três nomes para a mesma ideia: preferir pesos mais simples a menos que os dados…

▶ Regressão Regularizada

← Diagnóstico de modelos Decomposição Viés-Variância →