パラメータと推定量 — 統計学 · Mathematics for Machine Learning

ほぼすべての統計的問いが同じ形を持つ。世界には見えない真の数がある、パラメータθ（真の平均、真の成功確率）。有限のデータ標本しかない。そのデータから推測を計算する、推定量θ̂です。推定は良い推測を構築し、どれだけ信頼できるかを知る技術です。

データはランダムなので、θ̂自体がランダムな量です：実験を再び実行すれば異なるθ̂が得られる。推定量を2つで判定する：バイアス（平均してθに着地するか？）と分散（標本間でどれだけ跳ね回るか？）です。

味付けを判断するために鍋のスープを全部飲むことはできないため、よくかき混ぜてスプーン1杯だけを味わいます。鍋全体の本当の塩分濃度は、直接見ることができないパラメータ θ です。スプーン1杯の塩分濃度は推定量 θ̂ です。最初に徹底的にかき混ぜると、たった1杯のスプーンで鍋全体を驚くほどうまく推定できます — そのかき混ぜることが、サンプルを代表的なものにするのです。

機械学習における位置づけ過小適合 vs 過学習がこの同じトレードオフです。モデルのパラメータがθ̂で、有限の訓練データからフィットされる。過小適合 = 高バイアス：モデルが真実を捉えるには単純すぎる。過学習 = 高分散：モデルが柔軟すぎて特定の訓練標本を暗記し、新しい標本では全く異なるパラメータを与える。モデルの複雑さを選ぶことはこのトレードオフの点を選ぶこと。