Divergence KL

Les mathématiques de l'incertitude

La divergence KL mesure à quel point une distribution q est éloignée d'une autre p : la surprise supplémentaire que vous payez pour modéliser la réalité p avec la mauvaise distribution q. C'est le fossé à l'intérieur de l'entropie croisée :

Deux faits en font la « distance » cheval de bataille du ML. Par l'inégalité de Gibbs elle est toujours ≥ 0, et elle est nulle exactement quand q = p. Donc pousser KL vers 0 signifie faire correspondre parfaitement le modèle à la vérité.

KL n'est pas symétrique : KL(p‖q) ≠ KL(q‖p) en général, et elle viole l'inégalité triangulaire. L'asymétrie est significative, parce que les deux directions récompensent différents échecs. KL(p‖q) punit q lourdement pour être petit là où p est grand (elle « couvre les modes ») ; KL(q‖p) punit q pour étaler de la masse là où p n'en a pas (elle « cherche les modes »).

Où cela apparaît en MLL'ELBO d'un VAE a un terme KL qui tire la distribution latente de l'encodeur vers l'a priori N(0, I), un régulariseur qui garde l'espace latent bien élevé. Les méthodes de RL comme PPO/TRPO contraignent chaque mise à jour de politique avec une « région de confiance » KL pour que la nouvelle politique ne puisse pas bondir trop loin. La distillation de connaissances minimise la KL entre les…

▶ Divergence KL

← Entropie Croisée Information Mutuelle →