Mesures de Dispersion

Inférence, estimation et prise de décision à partir des données

Un centre vous dit où se trouvent les données ; la dispersion vous dit combien elles oscillent autour de ce centre. Deux jeux de données peuvent partager la même moyenne et être sauvagement différents : l'un resserré, l'autre éparpillé. La dispersion est la différence.

Le cheval de bataille est la variance : la distance quadratique moyenne à la moyenne. Sa racine carrée, l'écart-type, vit dans les mêmes unités que les données, donc il est plus facile à interpréter.

Deux classes passent le même quiz et les deux ont une moyenne de 72, donc sur le papier, elles semblent identiques. Mais la classe A a obtenu 70, 72, 74 (tous regroupés) tandis que la classe B a obtenu 50, 72, 94 (très dispersés). Même centre, des histoires totalement différentes : la dispersion est exactement le nombre qui les distingue.

Où cela apparaît en MLLa dispersion est partout dans la fiabilité du ML. La variance du gradient à travers un mini-batch contrôle le bruit de chaque pas d'entraînement ; une variance élevée signifie une descente saccadée. Et quand vous rapportez la précision d'un modèle, l'écart-type entre graines aléatoires est ce qui vous dit si une amélioration de « +0,3 % » est réelle ou juste du bruit. Un résultat sans sa…

▶ Mesures de Dispersion

← Mesures de Centre Distributions des Données →