Inferencia, estimación y toma de decisiones a partir de datos
Has construido dos clasificadores y uno tiene una precisión del 91.0%, el otro del 91.4%. ¿Es realmente el segundo mejor, o simplemente obtuvo un conjunto de pruebas más afortunado? Respoder esto rigurosamente es pruebas estadísticas para ML: pruebas de hipótesis adaptadas a las peculiaridades de la comparación de modelos.
El movimiento ingenuo, una prueba t simple en las precisiones por pliegues, está mal porque los pliegues de validación cruzada comparten datos de entrenamiento y así violan la independencia que la prueba t asume. Esto hace que la prueba sea demasiado confiada, inflando falsos positivos. Tres herramientas mejores manejan el entorno ML honestamente.
Prueba de McNemar compara dos clasificadores en el mismo conjunto de pruebas mirando solo los ejemplos donde discrepan, exactamente la pregunta correcta para predicciones emparejadas. El muestreo bootstrap resamplea el conjunto de pruebas con reemplazo muchas veces para construir un intervalo de confianza directamente para la precisión, sin fórmulas necesarias. La prueba t emparejada corregida ajusta la varianza para tener en cuenta el superpuesto entre los pliegues CV, deshaciendo la sobreconfianza de la versión ingenua.