KL-Divergenz

Die Mathematik der Unsicherheit

Die KL-Divergenz misst, wie weit eine Verteilung q von einer anderen p entfernt ist: die zusätzliche Überraschung, die man dafür zahlt, die Realität p mit der falschen Verteilung q zu modellieren. Sie ist die Lücke innerhalb der Cross-Entropy:

Zwei Tatsachen machen sie zum „Abstands“-Arbeitstier des ML. Nach der Gibbs-Ungleichung ist sie immer ≥ 0, und sie ist genau dann 0, wenn q = p. Die KL gegen 0 zu treiben bedeutet daher, dass dein Modell die Wahrheit perfekt trifft.

Die KL ist nicht symmetrisch: KL(p‖q) ≠ KL(q‖p) im Allgemeinen, und sie verletzt die Dreiecksungleichung. Die Asymmetrie ist bedeutsam, denn die beiden Richtungen belohnen unterschiedliche Fehler. KL(p‖q) bestraft q hart dafür, dort klein zu sein, wo p groß ist (sie ist „modusabdeckend“); KL(q‖p) bestraft q dafür, Masse dort zu verteilen, wo p keine hat (sie ist „modussuchend“).

Wo das im ML vorkommtDie ELBO eines VAE enthält einen KL-Term, der die latente Verteilung des Encoders zum Prior N(0, I) hinzieht – ein Regularisierer, der den latenten Raum gut konditioniert hält. RL-Verfahren wie PPO/TRPO begrenzen jede Policy-Aktualisierung mit einer KL-„Vertrauensregion“, damit die neue Policy nicht zu weit springt. Wissensdestillation minimiert die KL zwischen den Ausgabeverteilungen eines…
▶ KL-Divergenz
← Cross-EntropyMutual Information →