中心极限定理
不确定性的数学
大数定律说样本均值会收敛到 μ。但它如何到达那里?剩余的抖动长什么样?中心极限定理给出一个惊人的答案:这个抖动总是 Gaussian,不管你从什么分布开始。
对足够多的独立样本取平均后,标准化的平均值会服从标准正态,即使原始数据是硬币、骰子或某个偏斜分布。这就是钟形曲线如此常见的原因:任何许多小的独立影响之和,最终都会变成 Gaussian。
图中对 n 次公平骰子结果取平均,并在许多试验上画出直方图。当 n = 1 时直方图是平的(均匀);把 n 调大,一个钟形会凭空出现,CLT 从非 Gaussian 来源构建出了 Gaussian。
在机器学习中的应用CLT 解释了随机优化中的噪声结构。mini-batch 梯度是 batch 样本上的平均值,所以根据 CLT,它围绕真实梯度的误差近似 Gaussian,离散程度为 σ/√(batch size)。这就是为什么梯度噪声看起来像正态,为什么更大 batch 给出更平滑(但只按 √n 改善)的步骤,也解释了为什么 benchmark 准确率的误差条通常用基于正态的置信区间计算。
▶ 中心极限定理