熵

不确定性的数学

熵测量不确定性：你预计会被随机结果“惊讶”多少。公平硬币的不确定性最大；双面都是正面的硬币完全没有惊喜。Claude Shannon 把这变成了一个数字，即期望惊讶度，其中罕见事件的惊讶度是 −log p(x)（越罕见越惊讶）。

使用 log₂ 时，熵的单位是 bits，也就是平均需要多少个是/否问题才能确定结果。分布均匀时（每个结果同样可能，最大混乱）熵最大；当某个结果确定发生时（没有任何惊喜）熵为零。

图中显示一枚有偏硬币的熵，H(p) = −p log₂ p − (1−p) log₂(1−p)。拖动 p：熵在 p = 0.5 时达到峰值（完整的 1 bit，真正的硬币抛掷），并在确定的两端降为 0。

在机器学习中的应用熵是几乎所有分类损失的源头。它给出无损压缩的下限，并支撑交叉熵（下一课），也就是标准训练损失。在强化学习和探索中，目标函数会加入熵奖励，防止策略过早塌缩：最大化熵意味着“保持不确定，继续探索”。决策树按哪个特征最大程度降低熵（信息增益）来分裂。