Один центр и один разброс — всего два числа. Полная форма данных (их распределение) несёт гораздо больше. Быстрее всего увидеть — гистограмма: режешь диапазон на бины и считаешь, сколько значений попало в каждый. Сглаженная версия — график плотности.
Видя форму, важны два вопроса: симметрична или скошена, и хвосты тяжёлые или лёгкие?
Асимметрия измеряет перекос. Скошенное вправо (положительное) распределение имеет длинный хвост вправо: доходы, времена ожидания, размеры файлов. Скошенное влево — хвост влево. Для скошенного вправо среднее сидит правее медианы, утащенное хвостом.
Где это встречается в MLФорма распределения управляет реальными решениями ML. Распределения активаций внутри сети могут дрейфовать и обрастать тяжёлыми хвостами — поэтому существуют batch/layer normalization. Распределения потерь по батчам показывают, падает ли модель равномерно или давится тяжёлохвостым меньшинством трудных примеров. И тяжёлые хвосты — почему робастные потери (Huber) и обрезка градиента — стандартная…