valores-p

Inferência, estimação e tomada de decisão a partir de dados

O valor-p converte "quão extrema é a minha estatística de teste?" num único número. É a probabilidade de observar dados pelo menos tão extremos quanto os seus, supondo que H₀ seja verdadeira. Um valor-p minúsculo significa "estes dados seriam muito surpreendentes se de fato não houvesse efeito", o que é evidência contra H₀.

A regra de decisão é mecânica: escolha um limiar α de antemão (comumente 0.05) e então rejeite H₀ se p < α. Um p pequeno não prova H₁; apenas indica que a nula explica mal os dados.

Um valor-p (p-value) é uma verificação de acaso: se nada realmente estivesse acontecendo, quão surpreendente seria um resultado como o seu? Suponha que um amigo afirma ter uma moeda justa, mas tira nove caras seguidas — um valor-p coloca um número em quão rara essa sequência seria sob a história chata de 'é justa' H₀. Quanto menor o número, mais difícil é dispensar o resultado como sorte.

Onde isso aparece no MLEm ML, um valor-p lhe diz se a vitória do modelo A sobre o modelo B num benchmark é sinal ou ruído. Mas a armadilha é real: com um conjunto de teste gigantesco, um ganho de 0.01% de acurácia pode ser 'significativo' e, ainda assim, totalmente irrelevante na prática. E o p-hacking — testar configurações até que uma ultrapasse p < 0.05 — é exatamente como os leaderboards se enchem de resultados…
▶ valores-p
← EstruturaTeste t →