Intervalles de Confiance

Inférence, estimation et prise de décision à partir des données

Une estimation ponctuelle comme x̄ = 5,2 n'est presque certainement pas exactement la vraie moyenne, donc un seul nombre est malhonnête. Un intervalle de confiance rapporte une plage plus un niveau de confiance : « le vrai θ se trouve dans [L, U], avec 95 % de confiance. » Il quantifie à quel point votre échantillon fini vous permet de faire confiance à l'estimation.

Le cas le plus courant utilise le théorème central limite : la moyenne d'échantillon est approximativement normale, donc l'intervalle est l'estimation plus-ou-moins une marge d'erreur :

L'erreur standard σ/√n se rétrécit quand n grandit : quatre fois plus de données divise la marge par deux. La valeur z fixe la confiance : 1,96 pour 95 %, 2,576 pour 99 %.

Où cela apparaît en MLC'est ainsi que les articles ML honnêtes rapportent les résultats. Une précision de « 91,2 % ± 0,4 % » est un intervalle de confiance ; le ± est la barre d'erreur. Quand les intervalles de deux modèles se chevauchent fortement, le « gagnant » n'est peut-être qu'un échantillonnage chanceux. Quand le σ de population est inconnu ou la distribution est étrange, le bootstrap (rééchantillonnage du jeu…

▶ Intervalles de Confiance

← Estimation Bayésienne Cadre →