集中不等式(概要)
データからの推論、推定、意思決定
これまでの統計は主に平均と漸近論についてだった。集中不等式はより鋭い有限標本の問いを立てる:ランダムな量が平均から遠くに着地する確率はどれくらいか?それらの答えが機械学習がなぜ保証を提供できるかの数学的背骨です。
最も基本的で、非負の変数とその平均のみを必要とするのがマルコフの不等式です:
非負の変数は平均の何倍にも頻繁にはなれないと言う。平均が小さければ大きな値は稀でなければならない。粗いが、ほとんど何も必要としない。
機械学習における位置づけヘフディングの上限は汎化理論の心臓です:有限テストセットでのモデルの測定誤差が高い確率で真の誤差に証明可能に近い理由で、テストスコアを信頼する形式的正当化です。これがPAC学習(「確率的にほぼ正しい」)のエンジンです:十分なサンプルがあれば訓練と真の性能のギャップが高い確率で小さい。集中不等式が「より多くのデータが役立つ」を定理に変える。
▶ 集中不等式(概要)