Inferência, estimação e tomada de decisão a partir de dados
Construíste dois classificadores e um pontua 91,0% de exatidão, o outro 91,4%. O segundo é realmente melhor, ou apenas calhou um conjunto de teste com mais sorte? Responder a isso com rigor é o âmbito dos testes estatísticos para ML: testes de hipóteses adaptados às particularidades da comparação de modelos.
A abordagem ingénua — um teste t simples sobre as exatidões de cada parte — é falha, porque as partes de validação cruzada partilham dados de treino e, por isso, violam a independência que o teste t pressupõe. Isso torna o teste confiante demais e infla os falsos positivos. Três ferramentas melhores lidam honestamente com o contexto de ML.
O teste de McNemar compara dois classificadores no mesmo conjunto de teste, olhando apenas para os exemplos em que discordam — exatamente a pergunta certa para predições emparelhadas. O bootstrap reamostra o conjunto de teste com reposição muitas vezes para construir diretamente um intervalo de confiança para a exatidão, sem fórmula. O teste t emparelhado corrigido ajusta a variância para ter em conta a sobreposição entre partes de validação cruzada, desfazendo o excesso de confiança da versão ingénua.