大数の法則 — 確率 · Mathematics for Machine Learning

公平なコインを10回投げると7回表が出るかもしれない。1万回投げると表の割合は驚くほど0.5に寄り添う。それが大数の法則です：より多くのデータを集めると、標本平均は真の期待値に収束する。

ランダム性は消えず、個々の結果は予測不能のままだが、多くの平均は落ち着く。弱大数法則はこの収束が「確率で」であると言う：任意の許容誤差について、平均がその許容誤差より外れる確率がnが大きくなるにつれ0に向かって縮む。

図でRunを押して1回ずつコインを投げ、走行平均が最初は激しく彷徨い、やがて破線の真の平均に収束する様子を見てください。標本が多いほど収束がきつい。

機械学習における位置づけ大数の法則がミニバッチ訓練を健全にするものです。真の勾配はデータ分布全体にわたる期待値で；ミニバッチ勾配はその標本平均です。大数の法則により、その平均は真の勾配を近似しバッチが大きいほど正確になる。MLのすべてのモンテカルロ推定（期待報酬、ELBO項、経験リスク）はこの法則に頼り「標本にわたる平均 ≈ 真の期待値」を正当化する。