Die Mathematik der Unsicherheit
Angenommen, die Wahrheit ist die Verteilung p, aber du codierst Ergebnisse mit einem anderen Modell q. Die Cross-Entropy ist die durchschnittliche Überraschung, die du dabei tatsächlich zahlst: gemessen nach deinem Modell q, aber gemittelt darüber, wie häufig die Ereignisse unter p wirklich auftreten:
Sie zerfällt in zwei sinnvolle Teile: die unvermeidbare Entropie der Wahrheit plus eine Strafe dafür, das falsche Modell zu verwenden – die KL-Divergenz (nächste Lektion):
Da H(p) durch die Daten festgelegt ist, ist das Minimieren der Cross-Entropy über dein Modell identisch mit dem Minimieren der KL-Divergenz, was q in Richtung p treibt. Und die Cross-Entropy beträgt stets mindestens H(p), mit Gleichheit nur dann, wenn q = p.