交叉熵

不确定性的数学

假设真实分布是 p，但你用一个不同的模型 q 来编码结果。交叉熵是你实际支付的平均惊讶度：惊讶度由模型 q 测量，但按事件在真实分布 p 下发生的频率取平均：

它可以分成两个有意义的部分：真实分布不可避免的熵，加上使用错误模型的惩罚，即 KL 散度（下一课）：

由于 H(p) 由数据固定，在模型上最小化交叉熵等价于最小化 KL 散度，从而把 q 推向 p。并且交叉熵总是至少为 H(p)，只有当 q = p 时取等号。

在机器学习中的应用打开几乎任何分类器或语言模型，最后一层都是 softmax 加交叉熵损失。最小化它正是最大似然估计：在数据上求和的 −log q(true) 是负对数似然。训练网络预测下一个 token，就是在真实下一个 token 分布和模型分布之间最小化交叉熵。