Математика неопределённости
Допустим, истина — распределение p, но вы кодируете исходы, используя другую модель q. Кросс-энтропия — средний сюрприз, который вы реально платите: сюрприз по вашей модели q, но усреднённый по тому, как часто события реально происходят при p:
Распадается на две осмысленные части: неизбежную энтропию истины плюс штраф за неверную модель — KL-расхождение (следующий урок):
Поскольку H(p) фиксировано данными, минимизация кросс-энтропии по модели тождественна минимизации KL-расхождения, приближая q к p. Кросс-энтропия всегда не меньше H(p), равенство только при q = p.