Evaluatiemetrieken

Inferentie, schatting en besluitvorming uit data

"Nauwkeurigheid" klinkt als de voor de hand liggende manier om een classifier te scoren, tot het moment dat het tegen je liegt. De juiste evaluatiemetriek hangt volledig af van de taak en de kosten van verschillende fouten. Begin met de verwarringsmatrix: tellingen van echte positieven (TP), valse positieven (FP), echte negatieven (TN) en valse negatieven (FN). Elke metriek is opgebouwd uit deze vier getallen.

Twee complementaire metrieken. Precisie = TP/(TP+FP) vraagt "van de dingen die ik als positief markeerde, hoeveel waren het echt?" Recall = TP/(TP+FN) vraagt "van de daadwerkelijke positieven, hoeveel heb ik er gevangen?"

Ze wegen tegen elkaar af: markeer alles en recall raakt 1 maar precisie stort in; markeer alleen de zekerste gevallen en precisie schiet omhoog terwijl recall daalt. De F1-score balanceert ze als hun harmonisch gemiddelde:

Waar dit voorkomt in MLHet kiezen van de verkeerde metriek verwoest ML-projecten in stilte. Het optimaliseren van nauwkeurigheid op onevenwichtige data levert een model op dat de klasse waar je echt om geeft negeert. De metriek die je optimaliseert is het gedrag dat je krijgt, dus definieer succes met precisie/recall/F1/AUC voordat je traint, afgestemd op de werkelijke kosten van valse positieven versus valse…
▶ Evaluatiemetrieken
← KruisvalidatieStatistisch Toetsen voor ML →