Inferência, estimação e tomada de decisão a partir de dados
Executa um único teste a α = 0.05 e terás 5% de hipótese de um falso positivo. Executa vinte testes independentes e, mesmo que nada seja real, provavelmente obterás pelo menos um resultado "significativo" por pura sorte. Este é o problema dos testes múltiplos, e corrompe silenciosamente uma enorme quantidade de investigação e de experimentação em ML.
A hipótese de pelo menos um falso positivo ao longo de m testes, a taxa de erro por família, dispara: com m testes independentes ao nível α, é 1 − (1 − α)m. Para m = 20, α = 0.05, isso dá cerca de 64%, mais provável do que não encontrar um efeito fantasma.
Compre um único bilhete de lotaria e as suas probabilidades de ganhar são minúsculas. Compre mil e um deles pode "ganhar" algo puramente por acaso, mesmo que não tenha nenhuma intuição especial. Executar muitos testes estatísticos é a mesma aposta: com tentativas suficientes, um acaso sem sentido acabará por cruzar a linha de significância e mascarar-se de descoberta real.