De wiskunde van onzekerheid
Stel dat de waarheid verdeling p is, maar je codeert uitkomsten met een ander model q. Kruisentropie is de gemiddelde verrassing die je daadwerkelijk betaalt: verrassing gemeten door jouw model q, maar gemiddeld over hoe vaak gebeurtenissen werkelijk optreden onder p:
Het splitst in twee betekenisvolle stukken: de onvermijdelijke entropie van de waarheid, plus een straf voor het gebruik van het verkeerde model, de KL-divergentie (volgende les):
Omdat H(p) vastligt door de data, is kruisentropie minimaliseren over jouw model identiek aan de KL-divergentie minimaliseren, wat q naar p drijft. En kruisentropie is altijd ten minste H(p), met gelijkheid alleen wanneer q = p.