データの分布

データからの推論、推定、意思決定

単一の中心と単一の広がりはたった2つの数です。データの完全な形(分布)ははるかに多くを運ぶ。最も速く見る方法はヒストグラムです:範囲をビンに切り、各ビンにいくつの値が落ちるか数える。滑らかにした版が密度プロットです。

形が見えたら、2つの問いが重要です:対称か歪んでいるか、裾は重いか軽いか?

歪度は非対称性を測る。右歪み(正)の分布は右に伸びる長い裾を持つ:所得、待ち時間、ファイルサイズ。左歪みのものは左に trailing する。右歪みの形について平均は中央値の右にあり、裾に引き出される。

機械学習における位置づけ分布の形が実際のMLの決定を駆動する。活性化分布はネットワーク内でドリフトし heavy tail を発展させ得る、それがバッチ/レイヤー正規化が存在する理由です。バッチにわたる損失分布はモデルが一様に失敗するか heavy-tailed な難しい例の少数に詰まるかを明らかにする。そして heavy tail がロバスト損失(Huber)と勾配クリッピングが標準的な実践である理由。
▶ データの分布
← 広がりの測度変数間の関係 →