Entropie Croisée

Les mathématiques de l'incertitude

Supposons que la vérité est la distribution p, mais vous encodez les résultats en utilisant un modèle différent q. L'entropie croisée est la surprise moyenne que vous payez réellement : surprise mesurée par votre modèle q, mais moyennée sur la fréquence réelle des événements sous p :

Elle se divise en deux pièces significatives : l'entropie inévitable de la vérité, plus une pénalité pour utiliser le mauvais modèle, la divergence KL (prochaine leçon) :

Puisque H(p) est fixée par les données, minimiser l'entropie croisée sur votre modèle est identique à minimiser la divergence KL, poussant q vers p. Et l'entropie croisée est toujours au moins H(p), avec égalité seulement quand q = p.

Où cela apparaît en MLOuvrez presque n'importe quel classifieur ou modèle de langage et la dernière couche est softmax suivie d'une loss d'entropie croisée. La minimiser est exactement l'estimation du maximum de vraisemblance : −log q(vrai) sommé sur les données est la log-vraisemblance négative. Entraîner un réseau à prédire le token suivant c'est minimiser l'entropie croisée entre la vraie distribution du token…
▶ Entropie Croisée
← EntropieDivergence KL →