Inferência, estimação e tomada de decisão a partir de dados
Você construiu dois classificadores e um pontua 91,0% de acurácia, o outro 91,4%. O segundo é realmente melhor, ou apenas calhou um conjunto de teste com mais sorte? Responder a isso com rigor é o escopo dos testes estatísticos para ML: testes de hipóteses adaptados às particularidades da comparação de modelos.
A abordagem ingênua — um teste t simples sobre as acurácias de cada partição — é falha, porque as partições de validação cruzada compartilham dados de treino e, por isso, violam a independência que o teste t pressupõe. Isso torna o teste confiante demais e infla os falsos positivos. Três ferramentas melhores lidam honestamente com o contexto de ML.
O teste de McNemar compara dois classificadores no mesmo conjunto de teste, olhando apenas para os exemplos em que eles discordam — exatamente a pergunta certa para predições pareadas. O bootstrap reamostra o conjunto de teste com reposição muitas vezes para construir diretamente um intervalo de confiança para a acurácia, sem fórmula. O teste t pareado corrigido ajusta a variância para levar em conta a sobreposição entre partições de validação cruzada, desfazendo o excesso de confiança da versão ingênua.