Testes Estatísticos para ML

Inferência, estimação e tomada de decisão a partir de dados

Construíste dois classificadores e um pontua 91,0% de exatidão, o outro 91,4%. O segundo é realmente melhor, ou apenas calhou um conjunto de teste com mais sorte? Responder a isso com rigor é o âmbito dos testes estatísticos para ML: testes de hipóteses adaptados às particularidades da comparação de modelos.

A abordagem ingénua — um teste t simples sobre as exatidões de cada parte — é falha, porque as partes de validação cruzada partilham dados de treino e, por isso, violam a independência que o teste t pressupõe. Isso torna o teste confiante demais e infla os falsos positivos. Três ferramentas melhores lidam honestamente com o contexto de ML.

O teste de McNemar compara dois classificadores no mesmo conjunto de teste, olhando apenas para os exemplos em que discordam — exatamente a pergunta certa para predições emparelhadas. O bootstrap reamostra o conjunto de teste com reposição muitas vezes para construir diretamente um intervalo de confiança para a exatidão, sem fórmula. O teste t emparelhado corrigido ajusta a variância para ter em conta a sobreposição entre partes de validação cruzada, desfazendo o excesso de confiança da versão ingénua.

Onde isto aparece no MLEste tipo de rigor é o que separa um resultado real do ruído de um leaderboard. Antes de afirmares que o modelo A bate o modelo B, aplica o teste de McNemar (mesmo conjunto de teste) ou um intervalo de confiança por bootstrap à diferença de exatidão. A razão de um resultado se reportar como "91,2% ± 0,4%" em vez de apenas "91,2%" é precisamente para que um leitor possa aplicar este tipo de teste…

▶ Testes Estatísticos para ML

← Métricas de Avaliação Generativo vs Discriminativo →