Testes Múltiplos

Inferência, estimação e tomada de decisão a partir de dados

Execute um único teste a α = 0.05 e você terá 5% de chance de um falso positivo. Execute vinte testes independentes e, mesmo que nada seja real, você provavelmente obterá pelo menos um resultado "significativo" por pura sorte. Este é o problema dos testes múltiplos, e ele corrompe silenciosamente uma enorme quantidade de pesquisa e de experimentação em ML.

A chance de pelo menos um falso positivo ao longo de m testes, a taxa de erro por família, dispara: com m testes independentes ao nível α, ela é 1 − (1 − α)m. Para m = 20, α = 0.05, isso dá cerca de 64%, mais provável do que não encontrar um efeito fantasma.

Compre um único bilhete de loteria e suas chances de ganhar são minúsculas. Compre mil e um deles pode "ganhar" algo puramente por acaso, embora você não tenha nenhuma percepção especial. Executar muitos testes estatísticos é a mesma aposta: com tentativas suficientes, um acaso sem sentido acabará cruzando a linha de significância e se mascarando como uma descoberta real.

Onde isso aparece no MLOs testes múltiplos são um assassino silencioso do rigor em ML. Uma busca de hiperparâmetros sobre 100 configurações, um estudo de ablação com dezenas de variantes ou uma suíte de benchmark com 50 tarefas: cada uma é uma enxurrada de testes implícitos. Escolher "a configuração que venceu no conjunto de validação" sem correção é fazer testes múltiplos em massa, e é por isso que tantos ganhos…

▶ Testes Múltiplos

← Teste t Testes Não-Paramétricos →