Cross-Entropy

Die Mathematik der Unsicherheit

Angenommen, die Wahrheit ist die Verteilung p, aber du codierst Ergebnisse mit einem anderen Modell q. Die Cross-Entropy ist die durchschnittliche Überraschung, die du dabei tatsächlich zahlst: gemessen nach deinem Modell q, aber gemittelt darüber, wie häufig die Ereignisse unter p wirklich auftreten:

Sie zerfällt in zwei sinnvolle Teile: die unvermeidbare Entropie der Wahrheit plus eine Strafe dafür, das falsche Modell zu verwenden – die KL-Divergenz (nächste Lektion):

Da H(p) durch die Daten festgelegt ist, ist das Minimieren der Cross-Entropy über dein Modell identisch mit dem Minimieren der KL-Divergenz, was q in Richtung p treibt. Und die Cross-Entropy beträgt stets mindestens H(p), mit Gleichheit nur dann, wenn q = p.

Wo das im ML vorkommtÖffne fast jeden Klassifikator oder jedes Sprachmodell, und die letzte Schicht ist ein Softmax, gefolgt vom Cross-Entropy-Verlust. Ihn zu minimieren ist genau Maximum-Likelihood-Schätzung: −log q(wahr), aufsummiert über die Daten, ist die negative Log-Likelihood. Ein Netz darauf zu trainieren, den nächsten Token vorherzusagen, heißt, die Cross-Entropy zwischen der wahren Verteilung des nächsten…
▶ Cross-Entropy
← EntropieKL-Divergenz →