Inférence, estimation et prise de décision à partir des données
Vous avez construit deux classifieurs et l'un score 91,0 % de précision, l'autre 91,4 %. Le second est-il vraiment meilleur, ou a-t-il juste eu un jeu de test plus chanceux ? Répondre rigoureusement à cela est le test statistique pour le ML : test d'hypothèse adapté aux particularités de la comparaison de modèles.
Le mouvement naïf, un simple test t sur les précisions par pli, est défectueux, parce que les plis de validation croisée partagent les données d'entraînement et violent donc l'indépendance que le test t suppose. Cela rend le test trop confiant, enflant les faux positifs. Trois meilleurs outils gèrent la situation ML honnêtement.
Le test de McNemar compare deux classifieurs sur le même jeu de test en ne regardant que les exemples où ils divergent, exactement la bonne question pour des prédictions appariées. Le bootstrap rééchantillonne le jeu de test avec remise de nombreuses fois pour construire un intervalle de confiance pour la précision directement, sans formule. Le test t apparié corrigé ajuste la variance pour tenir compte du chevauchement entre les plis CV, défaisant la surconfiance de la version naïve.