Inferência, estimação e tomada de decisão a partir de dados
Por que um modelo que ajusta os dados de treino na perfeição falha tantas vezes em dados novos? A decomposição viés–variância dá a resposta exata e quantitativa. Ela reparte o erro de predição esperado de um modelo em três parcelas, e duas delas puxam em direções opostas.
O viés² é o erro proveniente de suposições erradas: um modelo simples demais para captar a verdade (underfitting). A variância é o erro proveniente da sensibilidade à amostra de treino concreta: um modelo tão flexível que memoriza o ruído (overfitting). O ruído é irredutível: a aleatoriedade dos dados que nenhum modelo consegue remover.
Desloque o controle deslizante de complexidade na figura. À medida que o modelo se torna mais complexo, o viés² (em verde) desce, mas a variância (em coral) sobe. O erro total de teste (em preto) é a soma dos dois mais o piso de ruído: uma forma de U cujo fundo corresponde à complexidade ótima.