Inferenza, stima e processo decisionale dai dati
L'"accuratezza" sembra il modo ovvio di valutare un classificatore, finché non ti inganna. La metrica di valutazione giusta dipende interamente dal compito e dal costo dei diversi errori. Si parte dalla matrice di confusione: i conteggi di veri positivi (TP), falsi positivi (FP), veri negativi (TN) e falsi negativi (FN). Ogni metrica si costruisce a partire da questi quattro numeri.
Due metriche complementari. La Precision = TP/(TP+FP) si chiede "tra le cose che ho segnalato come positive, quante lo erano davvero?" Il Recall = TP/(TP+FN) si chiede "tra i positivi reali, quanti ne ho individuati?"
Si bilanciano a vicenda: segnala tutto e il recall arriva a 1 ma la precision crolla; segnala solo i casi più sicuri e la precision sale mentre il recall scende. L'F1 score le bilancia come loro media armonica: