広がりの測度

データからの推論、推定、意思決定

中心はデータがどこにあるかを教える;広がりはその中心のまわりでどれだけ揺れるかを教える。2つのデータセットが同じ平均を共有しながら全く異なり得る:1つは密に集まり、1つはあちこちに散らばる。広がりがその違いです。

主力は分散です:平均からの平均2乗距離。その平方根の標準偏差はデータと同じ単位にあり、解釈しやすい。

2つのクラスが同じ小テストを受け、どちらも平均が 72 であるため、書類上は同じに見えます。しかし、クラスAのスコアは 70, 72, 74(全員が密集)であり、クラスBのスコアは 50, 72, 94(広く散らばっている)でした。同じ中心でも全く異なる物語です。ばらつきこそが、それらを区別する数値なのです。

機械学習における位置づけ広がりはMLの信頼性に至る所にある。勾配分散はミニバッチにわたって各訓練ステップのノイズを制御する;高分散はジッターのある降下を意味する。そしてモデルの精度を報告するとき、乱数シードにわたる標準偏差が「+0.3%」の改善が本物かノイズかを教える。広がりのない結果は半分の結果です。
▶ 広がりの測度
← 中心の測度データの分布 →