Diagnostics de Modèle

Inférence, estimation et prise de décision à partir des données

Ajuster une régression est la partie facile. La question plus difficile est si vous pouvez lui faire confiance. Les diagnostics de modèle sont les vérifications qui attrapent un modèle qui ajuste les nombres mais viole les hypothèses sous-jacentes. L'objet le plus utile à examiner est le résidu : e = y − ŷ, ce que le modèle n'a pas pu expliquer.

Si le modèle est correct, les résidus devraient ressembler à du pur bruit : pas de motif, dispersion constante, à peu près symétrique. L'outil principal est un graphique des résidus : résidus sur l'axe y contre les valeurs ajustées (ou une entrée) sur l'axe x. Vous chassez la structure qui ne devrait pas être là.

Un bon médecin ne s'arrête pas à nommer la maladie ; il vérifie quels symptômes subsistent après le traitement. Si un patient a toujours une toux tenace, le diagnostic a manqué quelque chose. Les résidus sont les symptômes restants d'un modèle : la partie des données que la ligne ajustée n'a pas pu expliquer. S'ils montrent un motif clair au lieu d'un bruit aléatoire inoffensif, le modèle a manqué quelque chose lui aussi.

Où cela apparaît en MLL'analyse des résidus est l'ancêtre statistique de l'analyse des courbes d'apprentissage et des erreurs en ML. « Loss d'entraînement ≠ loss de validation » est un diagnostic : un grand écart signale un overfitting (variance élevée), tout comme des résidus structurés signalent un modèle mal spécifié. Découper vos erreurs par sous-groupe pour trouver où le modèle échoue systématiquement est…

▶ Diagnostics de Modèle

← Régression Linéaire Multiple Régression Régularisée →