La matematica dell'incertezza
La divergenza KL misura quanto una distribuzione q è lontana da un'altra p: la sorpresa extra che paghi per modellare la realtà p con la distribuzione sbagliata q. È il gap dentro la cross-entropia:
Due fatti la rendono il "cavallo da battaglia" delle distanze dell'ML. Per la disuguaglianza di Gibbs è sempre ≥ 0, ed è zero esattamente quando q = p. Quindi portare KL a 0 significa far coincidere perfettamente il modello con la verità.
KL è non simmetrica: KL(p‖q) ≠ KL(q‖p) in generale, e viola la disuguaglianza triangolare. L'asimmetria è significativa, perché le due direzioni penalizzano fallimenti diversi. KL(p‖q) punisce q pesantemente per essere piccolo dove p è grande (è "mode-covering"); KL(q‖p) punisce q per spargere massa dove p non ne ha (è "mode-seeking").