Cadre

Inférence, estimation et prise de décision à partir des données

Le test d'hypothèse est une façon disciplinée de répondre à « cet effet est-il réel, ou pourrait-ce n'être que du bruit ? », ce qui est exactement la question « le modèle A est-il vraiment meilleur que le modèle B ? » Vous commencez par supposer qu'il n'y a rien qui se passe et demandez à quel point vos données seraient surprenantes si c'était vrai.

Deux affirmations concurrentes. L'hypothèse nulle H₀ est le défaut ennuyeux : pas d'effet, pas de différence. L'alternative H₁ est ce que vous soupçonnez : il y a un effet. Vous calculez une statistique de test depuis les données et demandez : si H₀ était vraie, à quel point cette valeur est-elle extrême ?

Si la statistique est si extrême qu'elle arriverait rarement sous H₀, vous rejetez H₀. Sinon vous ne parvenez pas à rejeter (notez : jamais « accepter », puisque l'absence de preuve n'est pas une preuve d'absence).

Où cela apparaît en MLToute affirmation de « +0,5 % de précision » est implicitement un test d'hypothèse. H₀ : les deux modèles sont également bons ; l'écart observé est du bruit d'échantillonnage. Si vous sautez le test, vous livrerez des améliorations qui s'évanouissent au prochain découpage de données, pourchassant des erreurs de Type I. Toute la raison pour laquelle les benchmarks ML rapportent la variance entre…
▶ Cadre
← Intervalles de Confiancep-values →