Inferência, estimação e tomada de decisão a partir de dados
Execute um único teste a α = 0.05 e você terá 5% de chance de um falso positivo. Execute vinte testes independentes e, mesmo que nada seja real, você provavelmente obterá pelo menos um resultado "significativo" por pura sorte. Este é o problema dos testes múltiplos, e ele corrompe silenciosamente uma enorme quantidade de pesquisa e de experimentação em ML.
A chance de pelo menos um falso positivo ao longo de m testes, a taxa de erro por família, dispara: com m testes independentes ao nível α, ela é 1 − (1 − α)m. Para m = 20, α = 0.05, isso dá cerca de 64%, mais provável do que não encontrar um efeito fantasma.
Compre um único bilhete de loteria e suas chances de ganhar são minúsculas. Compre mil e um deles pode "ganhar" algo puramente por acaso, embora você não tenha nenhuma percepção especial. Executar muitos testes estatísticos é a mesma aposta: com tentativas suficientes, um acaso sem sentido acabará cruzando a linha de significância e se mascarando como uma descoberta real.