Metryki ewaluacji

Wnioskowanie, estymacja i podejmowanie decyzji z danych

„Dokładność” (accuracy) brzmi jak najbardziej oczywisty sposób oceny klasyfikatora — do momentu, w którym bezczelnie cię okłamie. Właściwa metryka ewaluacyjna zależy w stu procentach od specyfiki zadania oraz kosztu popełnienia różnych błędów. Zacznij od macierzy błędu (macierzy pomyłek): zliczenia wyników prawdziwie dodatnich (TP), fałszywie dodatnich (FP), prawdziwie ujemnych (TN) i fałszywie ujemnych (FN). Praktycznie każda inna metryka zbudowana jest właśnie na tych czterech liczbach.

Poznaj dwie komplementarne metryki. Precyzja (Precision) = TP/(TP+FP), odpowiada na pytanie: „spośród wszystkich przypadków, które oznaczyłem jako dodatnie, ile rzeczywiście takich było?”. Czułość (Recall) = TP/(TP+FN), odpowiada na pytanie: „spośród wszystkich rzeczywiście dodatnich przypadków w zbiorze, ile zdołałem poprawnie wyłapać?”.

Obie te wartości podlegają nieustannemu kompromisowi (trade-off): jeśli oznaczysz wszystko jako przypadek dodatni, twoja czułość osiągnie 1, ale precyzja drastycznie runie; jeśli oznaczysz wyłącznie najpewniejsze z przypadków, precyzja wzrośnie, podczas gdy czułość gwałtownie spadnie. Wynik F1 (F1 Score) balansuje te dwie metryki, wyliczając z nich średnią harmoniczną:

Gdzie to występuje w MLWybór niewłaściwej metryki potrafi po cichu i nieodwracalnie zepsuć niemal każdy projekt ML. Optymalizowanie surowej dokładności na bardzo niezbalansowanych danych skutkuje wyprodukowaniem modelu całkowicie ignorującego klasę, na której znalezieniu zależy ci najbardziej. Pamiętaj, że metryka, którą optymalizujesz to precyzyjnie opisane zachowanie modelu, które ostatecznie otrzymujesz. Definiuj…

▶ Metryki ewaluacji

← Walidacja krzyżowa Testowanie statystyczne dla ML →