Metriche di Valutazione

Inferenza, stima e processo decisionale dai dati

L'"accuratezza" sembra il modo ovvio di valutare un classificatore, finché non ti inganna. La metrica di valutazione giusta dipende interamente dal compito e dal costo dei diversi errori. Si parte dalla matrice di confusione: i conteggi di veri positivi (TP), falsi positivi (FP), veri negativi (TN) e falsi negativi (FN). Ogni metrica si costruisce a partire da questi quattro numeri.

Due metriche complementari. La Precision = TP/(TP+FP) si chiede "tra le cose che ho segnalato come positive, quante lo erano davvero?" Il Recall = TP/(TP+FN) si chiede "tra i positivi reali, quanti ne ho individuati?"

Si bilanciano a vicenda: segnala tutto e il recall arriva a 1 ma la precision crolla; segnala solo i casi più sicuri e la precision sale mentre il recall scende. L'F1 score le bilancia come loro media armonica:

Dove si trova nel MLScegliere la metrica sbagliata rovina silenziosamente i progetti ML. Ottimizzare l'accuratezza su dati sbilanciati produce un modello che ignora proprio la classe che ti sta a cuore. La metrica che ottimizzi è il comportamento che ottieni, quindi definisci il successo con precision/recall/F1/AUC prima di addestrare, allineandolo al costo reale dei falsi positivi rispetto ai falsi negativi.

▶ Metriche di Valutazione

← Cross-Validation Test Statistici per l'ML →