Inferentie, schatting en besluitvorming uit data
"Nauwkeurigheid" klinkt als de voor de hand liggende manier om een classifier te scoren, tot het moment dat het tegen je liegt. De juiste evaluatiemetriek hangt volledig af van de taak en de kosten van verschillende fouten. Begin met de verwarringsmatrix: tellingen van echte positieven (TP), valse positieven (FP), echte negatieven (TN) en valse negatieven (FN). Elke metriek is opgebouwd uit deze vier getallen.
Twee complementaire metrieken. Precisie = TP/(TP+FP) vraagt "van de dingen die ik als positief markeerde, hoeveel waren het echt?" Recall = TP/(TP+FN) vraagt "van de daadwerkelijke positieven, hoeveel heb ik er gevangen?"
Ze wegen tegen elkaar af: markeer alles en recall raakt 1 maar precisie stort in; markeer alleen de zekerste gevallen en precisie schiet omhoog terwijl recall daalt. De F1-score balanceert ze als hun harmonisch gemiddelde: