Las matemáticas de la incertidumbre
Supongamos que la verdad es una distribución p, pero codificas los resultados usando un modelo diferente q. La entropía cruzada es el promedio de sorpresa real que pagas: la sorpresa medida por tu modelo q, pero promediada sobre cuán frecuentemente ocurren los eventos realmente bajo p:
Se divide en dos piezas significativas: la entropía inevitable de la verdad, más una penalización por usar el modelo incorrecto, la divergencia KL (próximo lección):
Ya que H(p) está fijado por los datos, minimizar la entropía cruzada sobre tu modelo es idéntico a minimizar la divergencia KL, llevando q hacia p. Y la entropía cruzada siempre es al menos H(p), con igualdad sólo cuando q = p.