交叉熵
不确定性的数学
假设真实分布是 p,但你用一个不同的模型 q 来编码结果。交叉熵是你实际支付的平均惊讶度:惊讶度由模型 q 测量,但按事件在真实分布 p 下发生的频率取平均:
它可以分成两个有意义的部分:真实分布不可避免的熵,加上使用错误模型的惩罚,即 KL 散度(下一课):
由于 H(p) 由数据固定,在模型上最小化交叉熵等价于最小化 KL 散度,从而把 q 推向 p。并且交叉熵总是至少为 H(p),只有当 q = p 时取等号。
在机器学习中的应用打开几乎任何分类器或语言模型,最后一层都是 softmax 加交叉熵损失。最小化它正是最大似然估计:在数据上求和的 −log q(true) 是负对数似然。训练网络预测下一个 token,就是在真实下一个 token 分布和模型分布之间最小化交叉熵。
▶ 交叉熵