A matemática da incerteza
A divergência KL mede quão longe uma distribuição q está de outra p: a surpresa adicional que você paga por modelar a realidade p com a distribuição errada q. É a parcela escondida dentro da entropia cruzada:
Dois fatos fazem dela a "distância" de eleição do ML. Pela desigualdade de Gibbs ela é sempre ≥ 0, e é nula exatamente quando q = p. Assim, levar a KL a 0 significa fazer o seu modelo corresponder à verdade na perfeição.
A KL não é simétrica: KL(p‖q) ≠ KL(q‖p) em geral, e viola a desigualdade triangular. A assimetria é significativa, porque cada direção premia falhas diferentes. KL(p‖q) penaliza fortemente q por ser pequena onde p é grande (é "cobre-modos"); KL(q‖p) penaliza q por espalhar massa onde p não tem nenhuma (é "procura-modos").