データの分布 — 統計学 · Mathematics for Machine Learning

単一の中心と単一の広がりはたった2つの数です。データの完全な形（分布）ははるかに多くを運ぶ。最も速く見る方法はヒストグラムです：範囲をビンに切り、各ビンにいくつの値が落ちるか数える。滑らかにした版が密度プロットです。

形が見えたら、2つの問いが重要です：対称か歪んでいるか、裾は重いか軽いか？

歪度は非対称性を測る。右歪み（正）の分布は右に伸びる長い裾を持つ：所得、待ち時間、ファイルサイズ。左歪みのものは左に trailing する。右歪みの形について平均は中央値の右にあり、裾に引き出される。

機械学習における位置づけ分布の形が実際のMLの決定を駆動する。活性化分布はネットワーク内でドリフトし heavy tail を発展させ得る、それがバッチ/レイヤー正規化が存在する理由です。バッチにわたる損失分布はモデルが一様に失敗するか heavy-tailed な難しい例の少数に詰まるかを明らかにする。そして heavy tail がロバスト損失（Huber）と勾配クリッピングが標準的な実践である理由。