Inferenz, Schätzung und Entscheidungsfindung aus Daten
Führe einen einzelnen Test bei α = 0,05 durch, und du hast eine 5-%-Chance auf ein falsch positives Ergebnis. Führe zwanzig unabhängige Tests durch, und selbst wenn es nichts Echtes gibt, wirst du durch reinen Zufall wahrscheinlich mindestens ein 'signifikantes' Ergebnis finden. Das ist das Problem des multiplen Testens, und es untergräbt unbemerkt eine riesige Menge an Forschung und ML-Experimenten.
Die Chance auf mindestens ein falsch positives Ergebnis über m Tests hinweg, die familienbezogene Fehlerrate, schnellt in die Höhe: Bei m unabhängigen Tests zum Niveau α beträgt sie 1 − (1 − α)m. Für m = 20 und α = 0,05 sind das etwa 64 % — eher wahrscheinlich als nicht, einen Phantom-Effekt zu finden.
Kauf dir ein einzelnes Lotterielos, und deine Gewinnchancen sind winzig. Kauf dir tausend, und eines davon könnte rein durch Zufall etwas "gewinnen", auch wenn du überhaupt keine besonderen Erkenntnisse hast. Viele statistische Tests durchzuführen, ist dasselbe Glücksspiel: Mit genug Versuchen wird ein bedeutungsloser Zufall schließlich die Signifikanzschwelle überschreiten und sich als echte Entdeckung maskieren.