Información Mutual

Las matemáticas de la incertidumbre

La información mutua mide cuánto sabes de un vártil al conocer otro: la reducción en incertidumbre sobre X una vez que observas Y. Es la divergencia KL entre la distribución conjunta verdadera y el producto de las marginales “como si fueran independientes”:

Ya que es una divergencia KL, siempre es ≥ 0, y es exactamente cero cuando X y Y son independientes, el caso donde la distribución conjunta realmente se factoriza en el producto de marginales. Cuanto más lejos esté la distribución conjunta de la independencia, más información comparten las variables.

Equivalentemente, es la caída en entropía de X al aprender Y:

Dónde aparece en el MLLa información mutua cuantifica cuánto una representación mantiene de su entrada. El principio del cuello de botella de información considera una buena representación Z como aquella que maximiza I(Z; Y) (mantener lo que predice la etiqueta) mientras minimiza I(Z; X) (descartar detalles irrelevantes del input). InfoNCE, la perdida detrás del aprendizaje supervisado contrastivo (SimCLR, CPC), es un…
▶ Información Mutual
← Divergencia de Kullback-LeiblerLey de los Grandes Números →