Statistisches Testen für ML

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Du hast zwei Klassifikatoren gebaut: Der eine erreicht 91,0 % Genauigkeit, der andere 91,4 %. Ist der zweite wirklich besser, oder hat er einfach eine günstigere Testmenge erwischt? Diese Frage rigoros zu beantworten ist die Aufgabe des statistischen Testens für ML: Hypothesentests, angepasst an die Besonderheiten von Modellvergleichen.

Der naive Ansatz, einen einfachen t-Test auf den Genauigkeiten pro Kreuzvalidierungs-Fold zu rechnen, ist fehlerhaft: Die Folds teilen sich Trainingsdaten und verletzen damit die Unabhängigkeit, die der t-Test voraussetzt. Das macht den Test übermäßig zuversichtlich und treibt die Rate falsch positiver Ergebnisse in die Höhe. Drei bessere Werkzeuge werden der ML-Situation ehrlich gerecht.

Der McNemar-Test vergleicht zwei Klassifikatoren auf derselben Testmenge, indem er nur die Beispiele betrachtet, bei denen sie sich uneinig sind – genau die richtige Frage für gepaarte Vorhersagen. Der Bootstrap zieht die Testmenge viele Male mit Zurücklegen neu, um direkt ein Konfidenzintervall für die Genauigkeit zu bauen, ganz ohne Formel. Der korrigierte gepaarte t-Test passt die Varianz an, um die Überlappung zwischen den CV-Folds zu berücksichtigen, und hebt so die übermäßige Zuversicht des naiven Ansatzes auf.

Wo das im ML vorkommtDiese Art von Sorgfalt unterscheidet ein echtes Ergebnis von bloßem Leaderboard-Rauschen. Bevor du behauptest, Modell A schlage Modell B, führe einen McNemar-Test (gleiche Testmenge) oder ein Bootstrap-Konfidenzintervall für die Genauigkeitsdifferenz durch. Genau deshalb wird ein Ergebnis als "91,2 % ± 0,4 %" statt nur als "91,2 %" berichtet: damit ein Leser genau diese Art von Test schon mit…

▶ Statistisches Testen für ML

← Bewertungsmetriken Generativ versus Diskriminativ →