Tests Multiples

Inférence, estimation et prise de décision à partir des données

Lancez un test à α = 0,05 et vous avez 5 % de chance d'un faux positif. Lancez vingt tests indépendants et, même si rien n'est réel, vous obtiendrez probablement au moins un résultat « significatif » par pure chance. C'est le problème des tests multiples, et il corrompt silencieusement une énorme quantité de recherche et d'expérimentation ML.

La chance d'au moins un faux positif à travers m tests, le taux d'erreur globale de la famille, enfle : avec m tests indépendants au seuil α c'est 1 − (1 − α)m. Pour m = 20, α = 0,05, cela fait environ 64 %, plus probable que non de trouver un effet fantôme.

Achetez un seul billet de loterie et vos chances de gagner sont minuscules. Achetez-en mille et l'un d'eux pourrait "gagner" quelque chose par pur hasard, même si vous n'avez absolument aucune intuition particulière. Exécuter de nombreux tests statistiques est le même pari : avec assez d'essais, un coup de chance insignifiant finira par franchir la ligne de signification et se fera passer pour une vraie découverte.

Où cela apparaît en MLLes tests multiples sont un tueur discret de la rigueur ML. Une recherche d'hyperparamètres sur 100 configurations, une étude d'ablation avec des dizaines de variantes, ou une suite de benchmarks avec 50 tâches : chacun est une barrage de tests implicites. Choisir « la config qui a gagné sur le jeu de validation » sans correction est des tests multiples de masse, et c'est pourquoi tant de gains…
▶ Tests Multiples
← Test tTests Non Paramétriques →