Las matemáticas de la incertidumbre
La divergencia de Kullback-Leibler mide cuán lejos está una distribución q de otra p: la sorpresa extra que pagas por modelar la realidad p con una distribución errónea q. Es el hueco dentro de la entropía cruzada:
Dos hechos lo convierten en la medida "distancia" principal del aprendizaje automático. Por la desigualdad de Gibbs siempre es ≥ 0, y es cero exactamente cuando q = p. Entonces, minimizar KL a 0 significa hacer que tu modelo coincida con la verdad perfectamente.
KL no es simétrico: KL(p‖q) ≠ KL(q‖p) en general, y viola la desigualdad del triángulo. La asimetría tiene sentido porque las dos direcciones castigan diferentes errores. KL(p‖q) castiga q severamente por ser pequeño donde p es grande (es "modo-covering"); KL(q‖p) castiga q por distribuir masa donde p no la tiene (es "modo-seeking").