Inférence, estimation et prise de décision à partir des données
Lancez un test à α = 0,05 et vous avez 5 % de chance d'un faux positif. Lancez vingt tests indépendants et, même si rien n'est réel, vous obtiendrez probablement au moins un résultat « significatif » par pure chance. C'est le problème des tests multiples, et il corrompt silencieusement une énorme quantité de recherche et d'expérimentation ML.
La chance d'au moins un faux positif à travers m tests, le taux d'erreur globale de la famille, enfle : avec m tests indépendants au seuil α c'est 1 − (1 − α)m. Pour m = 20, α = 0,05, cela fait environ 64 %, plus probable que non de trouver un effet fantôme.
Achetez un seul billet de loterie et vos chances de gagner sont minuscules. Achetez-en mille et l'un d'eux pourrait "gagner" quelque chose par pur hasard, même si vous n'avez absolument aucune intuition particulière. Exécuter de nombreux tests statistiques est le même pari : avec assez d'essais, un coup de chance insignifiant finira par franchir la ligne de signification et se fera passer pour une vraie découverte.