Les mathématiques de l'incertitude
La divergence KL mesure à quel point une distribution q est éloignée d'une autre p : la surprise supplémentaire que vous payez pour modéliser la réalité p avec la mauvaise distribution q. C'est le fossé à l'intérieur de l'entropie croisée :
Deux faits en font la « distance » cheval de bataille du ML. Par l'inégalité de Gibbs elle est toujours ≥ 0, et elle est nulle exactement quand q = p. Donc pousser KL vers 0 signifie faire correspondre parfaitement le modèle à la vérité.
KL n'est pas symétrique : KL(p‖q) ≠ KL(q‖p) en général, et elle viole l'inégalité triangulaire. L'asymétrie est significative, parce que les deux directions récompensent différents échecs. KL(p‖q) punit q lourdement pour être petit là où p est grand (elle « couvre les modes ») ; KL(q‖p) punit q pour étaler de la masse là où p n'en a pas (elle « cherche les modes »).