Divergenza KL

La matematica dell'incertezza

La divergenza KL misura quanto una distribuzione q è lontana da un'altra p: la sorpresa extra che paghi per modellare la realtà p con la distribuzione sbagliata q. È il gap dentro la cross-entropia:

Due fatti la rendono il "cavallo da battaglia" delle distanze dell'ML. Per la disuguaglianza di Gibbs è sempre ≥ 0, ed è zero esattamente quando q = p. Quindi portare KL a 0 significa far coincidere perfettamente il modello con la verità.

KL è non simmetrica: KL(p‖q) ≠ KL(q‖p) in generale, e viola la disuguaglianza triangolare. L'asimmetria è significativa, perché le due direzioni penalizzano fallimenti diversi. KL(p‖q) punisce q pesantemente per essere piccolo dove p è grande (è "mode-covering"); KL(q‖p) punisce q per spargere massa dove p non ne ha (è "mode-seeking").

Dove si trova nel MLL'ELBO di una VAE ha un termine KL che tira la distribuzione latente dell'encoder verso la prior N(0, I), un regolarizzatore che mantiene lo spazio latente ben comportato. Metodi di RL come PPO/TRPO vincolano ciascun aggiornamento di policy con una KL "trust region" così la nuova policy non può scattare troppo lontano. La knowledge distillation minimizza la KL tra le distribuzioni di output di un…

▶ Divergenza KL

← Cross-Entropia Informazione Mutua →