Bewertungsmetriken

Inferenz, Schätzung und Entscheidungsfindung aus Daten

"Genauigkeit" klingt nach der naheliegenden Methode, um einen Klassifikator zu bewerten – bis sie dich in die Irre führt. Die richtige Bewertungsmetrik hängt ganz von der Aufgabe und den Kosten der verschiedenen Fehler ab. Beginne mit der Konfusionsmatrix: den Anzahlen der richtig Positiven (TP), falsch Positiven (FP), richtig Negativen (TN) und falsch Negativen (FN). Jede Metrik baut auf diesen vier Zahlen auf.

Zwei einander ergänzende Metriken. Precision = TP/(TP+FP) fragt: "Von den Fällen, die ich als positiv markiert habe, wie viele waren es wirklich?" Recall = TP/(TP+FN) fragt: "Von den tatsächlich Positiven, wie viele habe ich erfasst?"

Beide stehen in einem Zielkonflikt: Markierst du alles, erreicht der Recall 1, während die Precision einbricht; markierst du nur die sichersten Fälle, steigt die Precision, während der Recall sinkt. Der F1-Score bringt beide als harmonisches Mittel ins Gleichgewicht:

Wo das im ML vorkommtDie falsche Metrik ruiniert ML-Projekte still und leise. Optimiert man die Genauigkeit auf unausgewogenen Daten, entsteht ein Modell, das genau die Klasse ignoriert, die dir eigentlich wichtig ist. Die Metrik, die du optimierst, ist das Verhalten, das du bekommst – definiere Erfolg also vor dem Training mit Precision/Recall/F1/AUC, abgestimmt auf die realen Kosten von falsch Positiven gegenüber…

▶ Bewertungsmetriken

← Kreuzvalidierung Statistisches Testen für ML →