Testes Estatísticos para ML

Inferência, estimação e tomada de decisão a partir de dados

Você construiu dois classificadores e um pontua 91,0% de acurácia, o outro 91,4%. O segundo é realmente melhor, ou apenas calhou um conjunto de teste com mais sorte? Responder a isso com rigor é o escopo dos testes estatísticos para ML: testes de hipóteses adaptados às particularidades da comparação de modelos.

A abordagem ingênua — um teste t simples sobre as acurácias de cada partição — é falha, porque as partições de validação cruzada compartilham dados de treino e, por isso, violam a independência que o teste t pressupõe. Isso torna o teste confiante demais e infla os falsos positivos. Três ferramentas melhores lidam honestamente com o contexto de ML.

O teste de McNemar compara dois classificadores no mesmo conjunto de teste, olhando apenas para os exemplos em que eles discordam — exatamente a pergunta certa para predições pareadas. O bootstrap reamostra o conjunto de teste com reposição muitas vezes para construir diretamente um intervalo de confiança para a acurácia, sem fórmula. O teste t pareado corrigido ajusta a variância para levar em conta a sobreposição entre partições de validação cruzada, desfazendo o excesso de confiança da versão ingênua.

Onde isso aparece no MLEste tipo de rigor é o que separa um resultado real do ruído de um leaderboard. Antes de afirmar que o modelo A bate o modelo B, aplique o teste de McNemar (mesmo conjunto de teste) ou um intervalo de confiança por bootstrap à diferença de acurácia. A razão de um resultado se reportar como "91,2% ± 0,4%" em vez de apenas "91,2%" é precisamente para que um leitor possa aplicar este tipo de teste a…

▶ Testes Estatísticos para ML

← Métricas de Avaliação Generativo vs Discriminativo →