方差
不确定性的数学
两个赌局可以有相同平均值,却感觉完全不同:“+1 或 −1”和“+1000 或 −1000”平均值都为 0,但后者波动巨大。方差测量这种离散程度,也就是 X 到其均值 μ = E[X] 的平方距离的平均值:
平方让偏差保持为正(不会相互抵消),并对大偏离惩罚更重。要回到原始单位,就取平方根:标准差 σ = √Var(X)。
实践中,快捷公式更快:“平方的均值减去均值的平方”:
在机器学习中的应用梯度估计器的方差决定每次训练步有多嘈杂。mini-batch 梯度是逐样本梯度的平均;根据 Bienaymé 恒等式,对 n 个独立估计取平均,会把方差除以 n,所以标准差中的噪声按 1/√n 下降。这就是更大 batch 给出更平滑、低方差步骤的原因,也是方差缩减技巧能加速训练的原因。
▶ 方差