Estrutura

Inferência, estimação e tomada de decisão a partir de dados

O teste de hipóteses é uma forma disciplinada de responder "este efeito é real, ou poderia ser apenas ruído?", que é exatamente a pergunta "o modelo A é de fato melhor do que o modelo B?". Você começa supondo que nada está acontecendo e pergunta quão surpreendentes seriam os seus dados se isso fosse verdade.

São duas as afirmações concorrentes. A hipótese nula H₀ é o padrão sem graça: nenhum efeito, nenhuma diferença. A alternativa H₁ é aquilo de que você suspeita: há um efeito. Você calcula uma estatística de teste a partir dos dados e pergunta: se H₀ fosse verdadeira, quão extremo seria este valor?

Se a estatística é tão extrema que raramente ocorreria sob H₀, você rejeita H₀. Caso contrário, você não rejeita a hipótese (atenção: nunca "aceita", já que ausência de evidência não é evidência de ausência).

Onde isso aparece no MLToda afirmação de "+0.5% de acurácia" é, implicitamente, um teste de hipóteses. H₀: os dois modelos são igualmente bons; a diferença observada é ruído de amostragem. Se você pular o teste, vai lançar melhorias que evaporam na próxima divisão dos dados, perseguindo erros do Tipo I. A razão de os benchmarks de ML reportarem a variância entre sementes é justamente permitir que você se pergunte…

▶ Estrutura

← Intervalos de Confiança valores-p →