Inferencia, estimación y toma de decisiones a partir de datos
"Accuracy" suena como la forma obvia de puntuar un clasificador, hasta que te miente. La métrica correctade evaluación depende completamente de la tarea y del costo de diferentes errores. Comienza con la matriz de confusión: conteos de verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN). Cada métrica se construye a partir de estos cuatro números.
Dos métricas complementarias. Precisión = TP/(TP+FP) pregunta "de las cosas que marqué como positivas, ¿cuántas realmente lo eran?" Recall = TP/(TP+FN) pregunta "de los verdaderos positivos, ¿cuántos capturé?"
Se equilibran: marca todo y el recall llega a 1 pero la precisión se desploma; marca solo los casos más seguros y la precisión aumenta mientras que el recall baja. La puntuación F1 los balancea como su media armónica: