De wiskunde van onzekerheid
KL-divergentie meet hoe ver de ene verdeling q van een andere p verwijderd is: de extra verrassing die je betaalt voor het modelleren van de werkelijkheid p met de verkeerde verdeling q. Het is de kloof binnen kruisentropie:
Twee feiten maken het de werkpaard-"afstand" van ML. Volgens de ongelijkheid van Gibbs is het altijd ≥ 0, en het is precies nul wanneer q = p. Dus KL naar 0 drijven betekent jouw model perfect met de waarheid laten overeenkomen.
KL is niet symmetrisch: KL(p‖q) ≠ KL(q‖p) in het algemeen, en het schendt de driehoeksongelijkheid. De asymmetrie is betekenisvol, want de twee richtingen belonen verschillende fouten. KL(p‖q) straft q zwaar voor klein zijn waar p groot is (het is "modus-dekkend"); KL(q‖p) straft q voor het verspreiden van massa waar p geen heeft (het is "modus-zoekend").