Inferenza, stima e processo decisionale dai dati
Perché un modello che si adatta perfettamente ai dati di addestramento spesso fallisce su dati nuovi? La decomposizione bias-varianza ne dà la risposta esatta e quantitativa. Scompone l'errore di predizione atteso di un modello in tre componenti, due delle quali tirano in direzioni opposte.
Il Bias² è l'errore dovuto ad assunzioni sbagliate: un modello troppo semplice per cogliere la verità (underfitting). La Varianza è l'errore dovuto alla sensibilità al particolare campione di addestramento: un modello così flessibile da memorizzare il rumore (overfitting). Il Rumore è irriducibile: la casualità nei dati che nessun modello potrà mai rimuovere.
Fai scorrere la complessità nella figura. Man mano che il modello diventa più complesso, il bias² (verde) diminuisce mentre la varianza (corallo) aumenta. L'errore totale sul test (nero) è la loro somma più il rumore di fondo: una forma a U il cui fondo corrisponde alla complessità ottimale.