Distributions des Données

Inférence, estimation et prise de décision à partir des données

Un seul centre et une seule dispersion ne sont que deux nombres. La forme complète des données (leur distribution) en porte bien plus. La façon la plus rapide de la voir est un histogramme : découpez la plage en bandes et comptez combien de valeurs tombent dans chacune. Une version lissée est un graphique de densité.

Une fois que vous pouvez voir la forme, deux questions comptent : est-elle symétrique ou asymétrique, et ses queues sont-elles lourdes ou légères ?

L'asymétrie (skewness) mesure la non-symétrie. Une distribution asymétrique à droite (positive) a une longue queue s'étirant vers la droite : revenus, temps d'attente, tailles de fichiers. Une asymétrique à gauche traîne vers la gauche. Pour une forme asymétrique à droite, la moyenne se trouve à droite de la médiane, tirée par la queue.

Où cela apparaît en MLLa forme de la distribution guide de vraies décisions de ML. Les distributions d'activation à l'intérieur d'un réseau peuvent dériver et développer des queues lourdes, ce qui est pourquoi la normalisation par batch/couche existe. Les distributions de loss à travers les batches révèlent si votre modèle échoue uniformément ou s'étouffe sur une minorité à queue lourde d'exemples difficiles. Et les…

▶ Distributions des Données

← Mesures de Dispersion Relations Entre Variables →