A matemática da incerteza
Suponha que a verdade é a distribuição p, mas que você codifica os resultados usando um modelo diferente q. A entropia cruzada é a surpresa média que você realmente paga: a surpresa medida pelo seu modelo q, mas ponderada pela frequência com que os eventos efetivamente ocorrem sob p:
Decompõe-se em duas parcelas com significado próprio: a entropia inevitável da verdade, mais uma penalização por usar o modelo errado, que é a divergência KL (próxima lição):
Como H(p) está fixada pelos dados, minimizar a entropia cruzada em relação ao seu modelo é idêntico a minimizar a divergência KL, aproximando q de p. E a entropia cruzada é sempre, no mínimo, H(p), com igualdade apenas quando q = p.