Divergência KL

A matemática da incerteza

A divergência KL mede quão longe uma distribuição q está de outra p: a surpresa adicional que você paga por modelar a realidade p com a distribuição errada q. É a parcela escondida dentro da entropia cruzada:

Dois fatos fazem dela a "distância" de eleição do ML. Pela desigualdade de Gibbs ela é sempre ≥ 0, e é nula exatamente quando q = p. Assim, levar a KL a 0 significa fazer o seu modelo corresponder à verdade na perfeição.

A KL não é simétrica: KL(p‖q) ≠ KL(q‖p) em geral, e viola a desigualdade triangular. A assimetria é significativa, porque cada direção premia falhas diferentes. KL(p‖q) penaliza fortemente q por ser pequena onde p é grande (é "cobre-modos"); KL(q‖p) penaliza q por espalhar massa onde p não tem nenhuma (é "procura-modos").

Onde isso aparece no MLO ELBO de um VAE tem um termo KL que puxa a distribuição latente do codificador na direção do prior N(0, I), um regularizador que mantém o espaço latente bem comportado. Métodos de RL como o PPO/TRPO restringem cada atualização da política com uma "região de confiança" KL, para que a nova política não dê um salto grande demais. A destilação de conhecimento minimiza a KL entre as distribuições de…
▶ Divergência KL
← Entropia CruzadaInformação Mútua →