Divergencia de Kullback-Leibler

Las matemáticas de la incertidumbre

La divergencia de Kullback-Leibler mide cuán lejos está una distribución q de otra p: la sorpresa extra que pagas por modelar la realidad p con una distribución errónea q. Es el hueco dentro de la entropía cruzada:

Dos hechos lo convierten en la medida "distancia" principal del aprendizaje automático. Por la desigualdad de Gibbs siempre es ≥ 0, y es cero exactamente cuando q = p. Entonces, minimizar KL a 0 significa hacer que tu modelo coincida con la verdad perfectamente.

KL no es simétrico: KL(p‖q) ≠ KL(q‖p) en general, y viola la desigualdad del triángulo. La asimetría tiene sentido porque las dos direcciones castigan diferentes errores. KL(p‖q) castiga q severamente por ser pequeño donde p es grande (es "modo-covering"); KL(q‖p) castiga q por distribuir masa donde p no la tiene (es "modo-seeking").

Dónde aparece en el MLUn VAE's ELBO tiene un término KL que tira de la distribución latente del codificador hacia el prior N(0, I), un regularizador que mantiene el espacio latente bien comportado. Los métodos RL como PPO/TRPO limitan cada actualización de política con una región de confianza KL para que la nueva política no se mueva demasiado lejos. La destilación de conocimiento minimiza KL entre las distribuciones…
▶ Divergencia de Kullback-Leibler
← Entropía CruzadaInformación Mutual →