valores-p

Inferência, estimação e tomada de decisão a partir de dados

O valor-p converte "quão extrema é a minha estatística de teste?" num único número. É a probabilidade de observar dados pelo menos tão extremos quanto os teus, supondo que H₀ seja verdadeira. Um valor-p minúsculo significa "estes dados seriam muito surpreendentes se de facto não houvesse efeito", o que é evidência contra H₀.

A regra de decisão é mecânica: escolhe um limiar α de antemão (comummente 0.05) e depois rejeita H₀ se p < α. Um p pequeno não prova H₁; apenas indica que a nula explica mal os dados.

Um valor-p é uma verificação de acaso: se nada estivesse realmente a acontecer, quão surpreendente seria um resultado como o seu? Suponha que um amigo alega ter uma moeda não viciada, mas tira nove caras seguidas — um valor-p quantifica quão rara seria essa sequência sob a história aborrecida 'é justa' H₀. Quanto menor o número, mais difícil é justificar o resultado como sendo sorte.

Onde isto aparece no MLEm ML, um valor-p diz-te se a vitória do modelo A sobre o modelo B num benchmark é sinal ou ruído. Mas a armadilha é real: com um conjunto de teste gigantesco, um ganho de 0.01% de exatidão pode ser 'significativo' e, ainda assim, totalmente irrelevante na prática. E o p-hacking — testar configurações até que uma ultrapasse p < 0.05 — é exatamente como os leaderboards se enchem de resultados…

▶ valores-p

← Estrutura Teste t →