Математиката на несигурността
Да предположим, че истинското разпределение е p, но вие кодирате резултатите чрез различен модел q. Кръстосаната ентропия е средната изненада, която реално изпитвате: изненадата е измерена от вашия модел q, но е осреднена спрямо това колко често събитията реално се случват според p:
Тя се разлага на две смислени части: неизбежната ентропия на истината плюс наказание за използване на грешен модел, наречено KL дивергенция (Kullback-Leibler divergence) (следващият урок):
Тъй като H(p) е фиксирана от данните, минимизирането на кръстосаната ентропия на вашия модел е еквивалентно на минимизиране на KL дивергенцията, което приближава q към p. Кръстосаната ентропия винаги е поне H(p), като равенство има само когато q = p.