Mehrfachtesten

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Führe einen einzelnen Test bei α = 0,05 durch, und du hast eine 5-%-Chance auf ein falsch positives Ergebnis. Führe zwanzig unabhängige Tests durch, und selbst wenn es nichts Echtes gibt, wirst du durch reinen Zufall wahrscheinlich mindestens ein 'signifikantes' Ergebnis finden. Das ist das Problem des multiplen Testens, und es untergräbt unbemerkt eine riesige Menge an Forschung und ML-Experimenten.

Die Chance auf mindestens ein falsch positives Ergebnis über m Tests hinweg, die familienbezogene Fehlerrate, schnellt in die Höhe: Bei m unabhängigen Tests zum Niveau α beträgt sie 1 − (1 − α)m. Für m = 20 und α = 0,05 sind das etwa 64 % — eher wahrscheinlich als nicht, einen Phantom-Effekt zu finden.

Kauf dir ein einzelnes Lotterielos, und deine Gewinnchancen sind winzig. Kauf dir tausend, und eines davon könnte rein durch Zufall etwas "gewinnen", auch wenn du überhaupt keine besonderen Erkenntnisse hast. Viele statistische Tests durchzuführen, ist dasselbe Glücksspiel: Mit genug Versuchen wird ein bedeutungsloser Zufall schließlich die Signifikanzschwelle überschreiten und sich als echte Entdeckung maskieren.

Wo das im ML vorkommtMultiples Testen ist ein stiller Killer der ML-Sorgfalt. Eine Hyperparameter-Suche über 100 Konfigurationen, eine Ablationsstudie mit Dutzenden von Varianten oder eine Benchmark-Suite mit 50 Aufgaben: Jede ist ein ganzes Sperrfeuer impliziter Tests. 'Die Konfiguration, die auf der Validierungsmenge gewonnen hat', ohne Korrektur auszuwählen, ist multiples Testen im großen Stil — und genau deshalb…

▶ Mehrfachtesten

← t-Test Nichtparametrische Tests →