Decomposição Viés-Variância

Inferência, estimação e tomada de decisão a partir de dados

Por que um modelo que ajusta os dados de treino na perfeição falha tantas vezes em dados novos? A decomposição viés–variância dá a resposta exata e quantitativa. Ela reparte o erro de predição esperado de um modelo em três parcelas, e duas delas puxam em direções opostas.

O viés² é o erro proveniente de suposições erradas: um modelo simples demais para captar a verdade (underfitting). A variância é o erro proveniente da sensibilidade à amostra de treino concreta: um modelo tão flexível que memoriza o ruído (overfitting). O ruído é irredutível: a aleatoriedade dos dados que nenhum modelo consegue remover.

Desloque o controle deslizante de complexidade na figura. À medida que o modelo se torna mais complexo, o viés² (em verde) desce, mas a variância (em coral) sobe. O erro total de teste (em preto) é a soma dos dois mais o piso de ruído: uma forma de U cujo fundo corresponde à complexidade ótima.

Onde isso aparece no MLEsta decomposição é a teoria do underfitting vs overfitting, e é assim que você lê uma curva de aprendizado. Erro de treino e de teste elevados = viés elevado = underfitting (use um modelo maior). Erro de treino baixo mas erro de teste elevado = variância elevada = overfitting (regularize, obtenha mais dados ou simplifique). Selecionar a complexidade de um modelo é, literalmente, encontrar o…
▶ Decomposição Viés-Variância
← Regressão RegularizadaValidação Cruzada →