Inferencia, estimación y toma de decisiones a partir de datos
Ejecutas una prueba a α = 0.05 y tienes un 5% de probabilidad de obtener un resultado falso positivo. Ejecutas veinte pruebas independientes y, incluso si nada es real, probablemente obtendrás al menos un resultado "significativo" por pura suerte. Este es el problema de las pruebas múltiples, y silenciosamente corrompe una gran cantidad de investigación y experimentación en aprendizaje automático.
La probabilidad de obtener al menos un falso positivo a través de m pruebas, la tasa de error familiar, aumenta: con m pruebas independientes a nivel α es 1 − (1 − α)m. Para m = 20 y α = 0.05, eso es aproximadamente un 64%, más probable que no para encontrar un efecto fantasma.
Compra un solo boleto de lotería y tus probabilidades de ganar son minúsculas. Compra mil y uno de ellos podría "ganar" algo puramente por casualidad, aunque no tengas ninguna intuición especial en absoluto. Realizar muchas pruebas estadísticas es la misma apuesta: con suficientes intentos, una casualidad sin sentido finalmente cruzará la línea de significancia y se hará pasar por un verdadero descubrimiento.