Estrutura

Inferência, estimação e tomada de decisão a partir de dados

O teste de hipóteses é uma forma disciplinada de responder "este efeito é real, ou poderá ser apenas ruído?", que é exatamente a pergunta "o modelo A é de facto melhor do que o modelo B?". Começas por supor que nada está a acontecer e perguntas quão surpreendentes seriam os teus dados se isso fosse verdade.

São duas as afirmações concorrentes. A hipótese nula H₀ é o padrão sem graça: nenhum efeito, nenhuma diferença. A alternativa H₁ é aquilo de que suspeitas: há um efeito. Calculas uma estatística de teste a partir dos dados e perguntas: se H₀ fosse verdadeira, quão extremo seria este valor?

Se a estatística é tão extrema que raramente ocorreria sob H₀, rejeitas H₀. Caso contrário, não rejeitas a hipótese (atenção: nunca "aceitas", já que ausência de evidência não é evidência de ausência).

Onde isto aparece no MLToda a afirmação de "+0.5% de exatidão" é, implicitamente, um teste de hipóteses. H₀: os dois modelos são igualmente bons; a diferença observada é ruído de amostragem. Se saltares o teste, vais lançar melhorias que evaporam na próxima divisão dos dados, perseguindo erros do Tipo I. A razão de os benchmarks de ML reportarem a variância entre sementes é justamente permitir-te perguntar honestamente…

▶ Estrutura

← Intervalos de Confiança valores-p →