Métricas de Evaluación

Inferencia, estimación y toma de decisiones a partir de datos

"Accuracy" suena como la forma obvia de puntuar un clasificador, hasta que te miente. La métrica correctade evaluación depende completamente de la tarea y del costo de diferentes errores. Comienza con la matriz de confusión: conteos de verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN). Cada métrica se construye a partir de estos cuatro números.

Dos métricas complementarias. Precisión = TP/(TP+FP) pregunta "de las cosas que marqué como positivas, ¿cuántas realmente lo eran?" Recall = TP/(TP+FN) pregunta "de los verdaderos positivos, ¿cuántos capturé?"

Se equilibran: marca todo y el recall llega a 1 pero la precisión se desploma; marca solo los casos más seguros y la precisión aumenta mientras que el recall baja. La puntuación F1 los balancea como su media armónica:

Dónde aparece en el MLElegir la métrica incorrecta silenciosamente arruina proyectos de ML. Optimizar precisión en datos desequilibrados produce un modelo que ignora la clase a la que realmente te importa. La métrica que optimices es el comportamiento que obtendrás, así que define el éxito con precisión/recall/F1/AUC antes de entrenar, ajustado al costo real del mundo de falsos positivos versus falsos negativos.

▶ Métricas de Evaluación

← Validación Cruzada Pruebas Estadísticas para ML →