Las matemáticas de la incertidumbre
La información mutua mide cuánto sabes de un vártil al conocer otro: la reducción en incertidumbre sobre X una vez que observas Y. Es la divergencia KL entre la distribución conjunta verdadera y el producto de las marginales “como si fueran independientes”:
Ya que es una divergencia KL, siempre es ≥ 0, y es exactamente cero cuando X y Y son independientes, el caso donde la distribución conjunta realmente se factoriza en el producto de marginales. Cuanto más lejos esté la distribución conjunta de la independencia, más información comparten las variables.
Equivalentemente, es la caída en entropía de X al aprender Y: