Кросс-энтропия — Вероятность

Допустим, истина — распределение p, но вы кодируете исходы, используя другую модель q. Кросс-энтропия — средний сюрприз, который вы реально платите: сюрприз по вашей модели q, но усреднённый по тому, как часто события реально происходят при p:

Распадается на две осмысленные части: неизбежную энтропию истины плюс штраф за неверную модель — KL-расхождение (следующий урок):

Поскольку H(p) фиксировано данными, минимизация кросс-энтропии по модели тождественна минимизации KL-расхождения, приближая q к p. Кросс-энтропия всегда не меньше H(p), равенство только при q = p.

Где это встречается в MLОткройте почти любой классификатор или языковую модель — последний слой softmax, затем потеря кросс-энтропии. Минимизация — в точности оценка максимального правдоподобия: −log q(истина) по данным — отрицательное лог-правдоподобие. Обучение сети предсказывать следующий токен — минимизация кросс-энтропии между истинным распределением следующего токена и модельным.