Pruebas Múltiples

Inferencia, estimación y toma de decisiones a partir de datos

Ejecutas una prueba a α = 0.05 y tienes un 5% de probabilidad de obtener un resultado falso positivo. Ejecutas veinte pruebas independientes y, incluso si nada es real, probablemente obtendrás al menos un resultado "significativo" por pura suerte. Este es el problema de las pruebas múltiples, y silenciosamente corrompe una gran cantidad de investigación y experimentación en aprendizaje automático.

La probabilidad de obtener al menos un falso positivo a través de m pruebas, la tasa de error familiar, aumenta: con m pruebas independientes a nivel α es 1 − (1 − α)m. Para m = 20 y α = 0.05, eso es aproximadamente un 64%, más probable que no para encontrar un efecto fantasma.

Compra un solo boleto de lotería y tus probabilidades de ganar son minúsculas. Compra mil y uno de ellos podría "ganar" algo puramente por casualidad, aunque no tengas ninguna intuición especial en absoluto. Realizar muchas pruebas estadísticas es la misma apuesta: con suficientes intentos, una casualidad sin sentido finalmente cruzará la línea de significancia y se hará pasar por un verdadero descubrimiento.

Dónde aparece en el MLLas pruebas múltiples son un asesino silencioso del rigor en aprendizaje automático. Una búsqueda de hiperparámetros sobre 100 configuraciones, una estudio de ablación con docenas de variantes, o un conjunto de pruebas con 50 tareas: cada uno es una lluvia de pruebas implícitas. Seleccionar 'la configuración que ganó en el conjunto de validación' sin corrección es múltiples pruebas masivas, y por…
▶ Pruebas Múltiples
← Prueba tPruebas no paramétricas →