期望

不确定性的数学

随机变量的期望是它的长期平均值：如果你无限重复实验并对结果取平均，最终会收敛到的值。它是可能取值的加权平均，每个值按其发生概率加权：

可以把 PMF 想成放在尺子上的一组权重；E[X] 是平衡点。它不一定是 X 实际能取到的值。公平骰子的平均值是 3.5，但没有任何一面显示 3.5。

想象一台你投币数千次的老虎机。在任何单次拉动中，你可能会赢得大奖或失去你的硬币，但这台机器每次游玩有一个固定的长期平均支出，这个数字就是 E[X]。随着游玩次数的累积，你的平均值会缓慢地向这个稳定值移动，即使从来没有哪一次单次旋转正好停在它上面。

在机器学习中的应用训练最小化的是期望损失 E_D[L(θ)]，也就是数据分布上的平均损失。我们无法精确计算这个期望，所以用有限样本（训练集）的平均值近似，并在每次梯度步中用 mini-batch 平均近似。期望的线性性解释了为什么一个 batch 上的平均梯度是真实梯度的无偏估计。