Framework

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Der Hypothesentest ist eine disziplinierte Methode, um die Frage zu beantworten: "Ist dieser Effekt real, oder könnte es sich nur um Rauschen handeln?" — was genau die Frage ist: "Ist Modell A tatsächlich besser als Modell B?" Sie beginnen mit der Annahme, dass nichts vor sich geht, und fragen, wie überraschend Ihre Daten wären, wenn das zuträfe.

Zwei konkurrierende Behauptungen. Die Nullhypothese H₀ ist die langweilige Standardannahme: kein Effekt, kein Unterschied. Die Alternative H₁ ist das, was Sie vermuten: Es gibt einen Effekt. Sie berechnen aus den Daten eine Teststatistik und fragen: Wenn H₀ wahr wäre, wie extrem wäre dieser Wert?

Ist die Statistik so extrem, dass sie unter H₀ nur selten aufträte, so verwerfen Sie H₀. Andernfalls behalten Sie H₀ bei (Achtung: niemals "annehmen", denn das Fehlen von Belegen ist kein Beleg für das Fehlen eines Effekts).

Wo das im ML vorkommtJede Behauptung "+0,5 % Genauigkeit" ist implizit ein Hypothesentest. H₀: Die beiden Modelle sind gleich gut; der beobachtete Unterschied ist Stichprobenrauschen. Wenn Sie den Test überspringen, liefern Sie Verbesserungen aus, die beim nächsten Daten-Split verschwinden, und jagen damit Fehlern 1. Art hinterher. Der ganze Grund, warum ML-Benchmarks die Varianz über verschiedene Seeds berichten,…

▶ Framework

← Konfidenzintervalle p-Werte →