Inferenz, Schätzung und Entscheidungsfindung aus Daten
Du hast zwei Klassifikatoren gebaut: Der eine erreicht 91,0 % Genauigkeit, der andere 91,4 %. Ist der zweite wirklich besser, oder hat er einfach eine günstigere Testmenge erwischt? Diese Frage rigoros zu beantworten ist die Aufgabe des statistischen Testens für ML: Hypothesentests, angepasst an die Besonderheiten von Modellvergleichen.
Der naive Ansatz, einen einfachen t-Test auf den Genauigkeiten pro Kreuzvalidierungs-Fold zu rechnen, ist fehlerhaft: Die Folds teilen sich Trainingsdaten und verletzen damit die Unabhängigkeit, die der t-Test voraussetzt. Das macht den Test übermäßig zuversichtlich und treibt die Rate falsch positiver Ergebnisse in die Höhe. Drei bessere Werkzeuge werden der ML-Situation ehrlich gerecht.
Der McNemar-Test vergleicht zwei Klassifikatoren auf derselben Testmenge, indem er nur die Beispiele betrachtet, bei denen sie sich uneinig sind – genau die richtige Frage für gepaarte Vorhersagen. Der Bootstrap zieht die Testmenge viele Male mit Zurücklegen neu, um direkt ein Konfidenzintervall für die Genauigkeit zu bauen, ganz ohne Formel. Der korrigierte gepaarte t-Test passt die Varianz an, um die Überlappung zwischen den CV-Folds zu berücksichtigen, und hebt so die übermäßige Zuversicht des naiven Ansatzes auf.