Tests Statistiques pour le ML

Inférence, estimation et prise de décision à partir des données

Vous avez construit deux classifieurs et l'un score 91,0 % de précision, l'autre 91,4 %. Le second est-il vraiment meilleur, ou a-t-il juste eu un jeu de test plus chanceux ? Répondre rigoureusement à cela est le test statistique pour le ML : test d'hypothèse adapté aux particularités de la comparaison de modèles.

Le mouvement naïf, un simple test t sur les précisions par pli, est défectueux, parce que les plis de validation croisée partagent les données d'entraînement et violent donc l'indépendance que le test t suppose. Cela rend le test trop confiant, enflant les faux positifs. Trois meilleurs outils gèrent la situation ML honnêtement.

Le test de McNemar compare deux classifieurs sur le même jeu de test en ne regardant que les exemples où ils divergent, exactement la bonne question pour des prédictions appariées. Le bootstrap rééchantillonne le jeu de test avec remise de nombreuses fois pour construire un intervalle de confiance pour la précision directement, sans formule. Le test t apparié corrigé ajuste la variance pour tenir compte du chevauchement entre les plis CV, défaisant la surconfiance de la version naïve.

Où cela apparaît en MLCe genre de rigueur est ce qui sépare un vrai résultat du bruit de classement. Avant de clamer que le modèle A bat le modèle B, lancez le test de McNemar (même jeu de test) ou un IC bootstrap sur l'écart de précision. Toute la raison pour laquelle un résultat est rapporté comme « 91,2 % ± 0,4 % » plutôt que juste « 91,2 % » est pour qu'un lecteur puisse appliquer exactement ce genre de test à…

▶ Tests Statistiques pour le ML

← Métriques d'Évaluation Génératif vs Discriminatif →