不确定性的数学

熵测量不确定性:你预计会被随机结果“惊讶”多少。公平硬币的不确定性最大;双面都是正面的硬币完全没有惊喜。Claude Shannon 把这变成了一个数字,即期望惊讶度,其中罕见事件的惊讶度是 −log p(x)(越罕见越惊讶)。

使用 log₂ 时,熵的单位是 bits,也就是平均需要多少个是/否问题才能确定结果。分布均匀时(每个结果同样可能,最大混乱)熵最大;当某个结果确定发生时(没有任何惊喜)熵为零。

图中显示一枚有偏硬币的熵,H(p) = −p log₂ p − (1−p) log₂(1−p)。拖动 p:熵在 p = 0.5 时达到峰值(完整的 1 bit,真正的硬币抛掷),并在确定的两端降为 0。

在机器学习中的应用熵是几乎所有分类损失的源头。它给出无损压缩的下限,并支撑交叉熵(下一课),也就是标准训练损失。在强化学习和探索中,目标函数会加入熵奖励,防止策略过早塌缩:最大化熵意味着“保持不确定,继续探索”。决策树按哪个特征最大程度降低熵(信息增益)来分裂。
▶ 熵
← 协方差与相关交叉熵 →