KL-divergentie

De wiskunde van onzekerheid

KL-divergentie meet hoe ver de ene verdeling q van een andere p verwijderd is: de extra verrassing die je betaalt voor het modelleren van de werkelijkheid p met de verkeerde verdeling q. Het is de kloof binnen kruisentropie:

Twee feiten maken het de werkpaard-"afstand" van ML. Volgens de ongelijkheid van Gibbs is het altijd ≥ 0, en het is precies nul wanneer q = p. Dus KL naar 0 drijven betekent jouw model perfect met de waarheid laten overeenkomen.

KL is niet symmetrisch: KL(p‖q) ≠ KL(q‖p) in het algemeen, en het schendt de driehoeksongelijkheid. De asymmetrie is betekenisvol, want de twee richtingen belonen verschillende fouten. KL(p‖q) straft q zwaar voor klein zijn waar p groot is (het is "modus-dekkend"); KL(q‖p) straft q voor het verspreiden van massa waar p geen heeft (het is "modus-zoekend").

Waar dit voorkomt in MLDe ELBO van een VAE heeft een KL-term die de latente verdeling van de encoder naar de prior N(0, I) trekt, een regularisator die de latente ruimte goed gedragen houdt. RL-methoden zoals PPO/TRPO beperken elke policy-update met een KL-"vertrouwensregio" zodat de nieuwe policy niet te ver kan uitschieten. Kennisdistillatie minimaliseert KL tussen de outputverdelingen van een grote leraar en een…

▶ KL-divergentie

← Kruisentropie Wederzijdse informatie →