A matemática da incerteza
Supõe que a verdade é a distribuição p, mas que codificas os resultados usando um modelo diferente q. A entropia cruzada é a surpresa média que realmente pagas: a surpresa medida pelo teu modelo q, mas ponderada pela frequência com que os eventos efetivamente ocorrem sob p:
Decompõe-se em duas parcelas com significado próprio: a entropia inevitável da verdade, mais uma penalização por usar o modelo errado, que é a divergência KL (próxima lição):
Como H(p) está fixada pelos dados, minimizar a entropia cruzada em relação ao teu modelo é idêntico a minimizar a divergência KL, aproximando q de p. E a entropia cruzada é sempre, no mínimo, H(p), com igualdade apenas quando q = p.