Testes Múltiplos

Inferência, estimação e tomada de decisão a partir de dados

Executa um único teste a α = 0.05 e terás 5% de hipótese de um falso positivo. Executa vinte testes independentes e, mesmo que nada seja real, provavelmente obterás pelo menos um resultado "significativo" por pura sorte. Este é o problema dos testes múltiplos, e corrompe silenciosamente uma enorme quantidade de investigação e de experimentação em ML.

A hipótese de pelo menos um falso positivo ao longo de m testes, a taxa de erro por família, dispara: com m testes independentes ao nível α, é 1 − (1 − α)m. Para m = 20, α = 0.05, isso dá cerca de 64%, mais provável do que não encontrar um efeito fantasma.

Compre um único bilhete de lotaria e as suas probabilidades de ganhar são minúsculas. Compre mil e um deles pode "ganhar" algo puramente por acaso, mesmo que não tenha nenhuma intuição especial. Executar muitos testes estatísticos é a mesma aposta: com tentativas suficientes, um acaso sem sentido acabará por cruzar a linha de significância e mascarar-se de descoberta real.

Onde isto aparece no MLOs testes múltiplos são um assassino silencioso do rigor em ML. Uma busca de hiperparâmetros sobre 100 configurações, um estudo de ablação com dezenas de variantes ou uma suíte de benchmark com 50 tarefas: cada uma é uma enxurrada de testes implícitos. Escolher "a configuração que venceu no conjunto de validação" sem correção é fazer testes múltiplos em massa, e é por isso que tantos ganhos…

▶ Testes Múltiplos

← Teste t Testes Não-Paramétricos →