中心の測度

データからの推論、推定、意思決定

データをモデル化する前に、正直に要約しなければならない。最も基本的な要約は「データはどこに中心があるか?」に答える単一の数です。3つの古典的な答えがあり、それらは常に一致しない、それがまさにすべてを知る必要がある理由です。

平均はつり合い点です:すべての値を足し、数で割る。中央値はソートした後の中央の値です。最頻値は単に最も一般的な値です。

ある短い通りにある住宅の提示価格を数十万単位で想像してください: 3, 4, 4, 5, 30。4軒の普通の家と1軒の水辺の豪邸です。平均価格は 46/5 = 9.2 ですが、普通の家でそれに近い価格のものは1つもありません。中央値(ソート後の真ん中の値)は単に 4 であり、1軒の豪邸がリストの真ん中を大きく引っ張ることはできないため、典型的な家を正直に報告します。

機械学習における位置づけ報告するすべての損失指標はテストセットにわたる中心の測度です。「平均2乗誤差」は2乗誤差を平均する;平均は感度が高いので、少数の壊滅的予測がそれを支配する。 heavy tail が疑われるときは中央値誤差も報告する。それは最悪の数例が平均に何をするかではなく、典型的な例が何を経験するかを教える。
▶ 中心の測度
← 中心極限定理広がりの測度 →