Pruebas Estadísticas para ML

Inferencia, estimación y toma de decisiones a partir de datos

Has construido dos clasificadores y uno tiene una precisión del 91.0%, el otro del 91.4%. ¿Es realmente el segundo mejor, o simplemente obtuvo un conjunto de pruebas más afortunado? Respoder esto rigurosamente es pruebas estadísticas para ML: pruebas de hipótesis adaptadas a las peculiaridades de la comparación de modelos.

El movimiento ingenuo, una prueba t simple en las precisiones por pliegues, está mal porque los pliegues de validación cruzada comparten datos de entrenamiento y así violan la independencia que la prueba t asume. Esto hace que la prueba sea demasiado confiada, inflando falsos positivos. Tres herramientas mejores manejan el entorno ML honestamente.

Prueba de McNemar compara dos clasificadores en el mismo conjunto de pruebas mirando solo los ejemplos donde discrepan, exactamente la pregunta correcta para predicciones emparejadas. El muestreo bootstrap resamplea el conjunto de pruebas con reemplazo muchas veces para construir un intervalo de confianza directamente para la precisión, sin fórmulas necesarias. La prueba t emparejada corregida ajusta la varianza para tener en cuenta el superpuesto entre los pliegues CV, deshaciendo la sobreconfianza de la versión ingenua.

Dónde aparece en el MLEste tipo de rigor es lo que separa un resultado real del ruido en el leaderboard. Antes de afirmar que el modelo A derrota al modelo B, ejecuta la prueba de McNemar (mismo conjunto de pruebas) o un intervalo de confianza bootstrap sobre la brecha de precisión.

▶ Pruebas Estadísticas para ML

← Métricas de Evaluación Generativo vs Discriminante →