分散
不確実性の数学
2つの賭けが同じ平均を共有しながら完全に異なる感覚を持てる:「+1または−1」と「+1000または−1000」は両方とも平均0だが、一方は荒い。分散はその広がりを測る、Xの平均μ = E[X]からの平均2乗距離です:
2乗は偏差を正に保ち(打ち消し合わないように)大きな外れをより重く罰する。元の単位に戻すには平方根を取る:標準偏差σ = √Var(X)。
実際にはショートカット公式が速い、「平方の平均から平均の平方を引く」:
機械学習における位置づけ勾配推定の分散が各訓練ステップのノイズの大きさを決める。ミニバッチ勾配は例ごとの勾配の平均で、ビエネイメによりn個の独立な推定を平均すると分散はnで割られ、ノイズは標準偏差で1/√nのように減る。それが大きなバッチがより滑らかで低分散のステップを与える全体の理由で、分散削減のテクニックが訓練を速める理由。
▶ 分散