Decomposição Viés-Variância

Inferência, estimação e tomada de decisão a partir de dados

Porque é que um modelo que ajusta os dados de treino na perfeição falha tantas vezes em dados novos? A decomposição viés–variância dá a resposta exata e quantitativa. Reparte o erro de predição esperado de um modelo em três parcelas, e duas delas puxam em direções opostas.

O viés² é o erro proveniente de suposições erradas: um modelo simples demais para captar a verdade (underfitting). A variância é o erro proveniente da sensibilidade à amostra de treino concreta: um modelo tão flexível que memoriza o ruído (overfitting). O ruído é irredutível: a aleatoriedade dos dados que nenhum modelo consegue remover.

Desloca o controlo deslizante de complexidade na figura. À medida que o modelo se torna mais complexo, o viés² (em verde) desce, mas a variância (em coral) sobe. O erro total de teste (em preto) é a soma dos dois mais o piso de ruído: uma forma de U cujo fundo corresponde à complexidade ótima.

Onde isto aparece no MLEsta decomposição é a teoria do underfitting vs overfitting, e é assim que lês uma curva de aprendizagem. Erro de treino e de teste elevados = viés elevado = underfitting (usa um modelo maior). Erro de treino baixo mas erro de teste elevado = variância elevada = overfitting (regulariza, obtém mais dados ou simplifica). Selecionar a complexidade de um modelo é, literalmente, encontrar o fundo…
▶ Decomposição Viés-Variância
← Regressão RegularizadaValidação Cruzada →