Die Mathematik der Unsicherheit
Die KL-Divergenz misst, wie weit eine Verteilung q von einer anderen p entfernt ist: die zusätzliche Überraschung, die man dafür zahlt, die Realität p mit der falschen Verteilung q zu modellieren. Sie ist die Lücke innerhalb der Cross-Entropy:
Zwei Tatsachen machen sie zum „Abstands“-Arbeitstier des ML. Nach der Gibbs-Ungleichung ist sie immer ≥ 0, und sie ist genau dann 0, wenn q = p. Die KL gegen 0 zu treiben bedeutet daher, dass dein Modell die Wahrheit perfekt trifft.
Die KL ist nicht symmetrisch: KL(p‖q) ≠ KL(q‖p) im Allgemeinen, und sie verletzt die Dreiecksungleichung. Die Asymmetrie ist bedeutsam, denn die beiden Richtungen belohnen unterschiedliche Fehler. KL(p‖q) bestraft q hart dafür, dort klein zu sein, wo p groß ist (sie ist „modusabdeckend“); KL(q‖p) bestraft q dafür, Masse dort zu verteilen, wo p keine hat (sie ist „modussuchend“).