Les mathématiques de l'incertitude
Supposons que la vérité est la distribution p, mais vous encodez les résultats en utilisant un modèle différent q. L'entropie croisée est la surprise moyenne que vous payez réellement : surprise mesurée par votre modèle q, mais moyennée sur la fréquence réelle des événements sous p :
Elle se divise en deux pièces significatives : l'entropie inévitable de la vérité, plus une pénalité pour utiliser le mauvais modèle, la divergence KL (prochaine leçon) :
Puisque H(p) est fixée par les données, minimiser l'entropie croisée sur votre modèle est identique à minimiser la divergence KL, poussant q vers p. Et l'entropie croisée est toujours au moins H(p), avec égalité seulement quand q = p.