Inferenz, Schätzung und Entscheidungsfindung aus Daten
"Genauigkeit" klingt nach der naheliegenden Methode, um einen Klassifikator zu bewerten – bis sie dich in die Irre führt. Die richtige Bewertungsmetrik hängt ganz von der Aufgabe und den Kosten der verschiedenen Fehler ab. Beginne mit der Konfusionsmatrix: den Anzahlen der richtig Positiven (TP), falsch Positiven (FP), richtig Negativen (TN) und falsch Negativen (FN). Jede Metrik baut auf diesen vier Zahlen auf.
Zwei einander ergänzende Metriken. Precision = TP/(TP+FP) fragt: "Von den Fällen, die ich als positiv markiert habe, wie viele waren es wirklich?" Recall = TP/(TP+FN) fragt: "Von den tatsächlich Positiven, wie viele habe ich erfasst?"
Beide stehen in einem Zielkonflikt: Markierst du alles, erreicht der Recall 1, während die Precision einbricht; markierst du nur die sichersten Fälle, steigt die Precision, während der Recall sinkt. Der F1-Score bringt beide als harmonisches Mittel ins Gleichgewicht: