Inférence, estimation et prise de décision à partir des données
Pourquoi un modèle qui ajuste parfaitement les données d'entraînement échoue-t-il souvent sur de nouvelles données ? La décomposition biais–variance donne la réponse exacte et quantitative. Elle sépare l'erreur de prédiction espérée d'un modèle en trois morceaux, dont deux tirent dans des directions opposées.
Le Biais² est l'erreur de mauvaises hypothèses : un modèle trop simple pour capturer la vérité (underfitting). La Variance est l'erreur de sensibilité à l'échantillon d'entraînement particulier : un modèle si flexible qu'il mémorise le bruit (overfitting). Le Bruit est irréductible : du hasard dans les données qu'aucun modèle ne peut jamais retirer.
Faites glisser la complexité dans la figure. Quand le modèle grandit en complexité, le biais² (vert) tombe mais la variance (corail) monte. L'erreur totale de test (noir) est leur somme plus le plancher de bruit : un U dont le bas est la complexité optimale.