Wnioskowanie, estymacja i podejmowanie decyzji z danych
„Dokładność” (accuracy) brzmi jak najbardziej oczywisty sposób oceny klasyfikatora — do momentu, w którym bezczelnie cię okłamie. Właściwa metryka ewaluacyjna zależy w stu procentach od specyfiki zadania oraz kosztu popełnienia różnych błędów. Zacznij od macierzy błędu (macierzy pomyłek): zliczenia wyników prawdziwie dodatnich (TP), fałszywie dodatnich (FP), prawdziwie ujemnych (TN) i fałszywie ujemnych (FN). Praktycznie każda inna metryka zbudowana jest właśnie na tych czterech liczbach.
Poznaj dwie komplementarne metryki. Precyzja (Precision) = TP/(TP+FP), odpowiada na pytanie: „spośród wszystkich przypadków, które oznaczyłem jako dodatnie, ile rzeczywiście takich było?”. Czułość (Recall) = TP/(TP+FN), odpowiada na pytanie: „spośród wszystkich rzeczywiście dodatnich przypadków w zbiorze, ile zdołałem poprawnie wyłapać?”.
Obie te wartości podlegają nieustannemu kompromisowi (trade-off): jeśli oznaczysz wszystko jako przypadek dodatni, twoja czułość osiągnie 1, ale precyzja drastycznie runie; jeśli oznaczysz wyłącznie najpewniejsze z przypadków, precyzja wzrośnie, podczas gdy czułość gwałtownie spadnie. Wynik F1 (F1 Score) balansuje te dwie metryki, wyliczając z nich średnią harmoniczną: