L'informazione mutua misura quanto conoscere una variabile ti dice sull'altra: la riduzione di incertezza su X una volta che osservi Y. È la divergenza KL tra la congiunta vera e il prodotto dei marginali "fingendo che siano indipendenti":
Essendo una KL, è sempre ≥ 0, ed è zero esattamente quando X e Y sono indipendenti, il caso in cui la congiunta fattorizza davvero nel prodotto dei marginali. Più la congiunta è lontana dall'indipendenza, più informazioni le variabili condividono.
Equivalentemente, è il calo di entropia di X dall'apprendere Y:
Dove si trova nel MLL'informazione mutua quantifica quanto una rappresentazione conserva del suo input. Il principio dell'information bottleneck definisce una buona rappresentazione Z come una che massimizza I(Z; Y) (conserva ciò che predice l'etichetta) mentre minimizza I(Z; X) (scarta i dettagli irrilevanti dell'input). InfoNCE, la loss dietro l'apprendimento self-supervised contrastivo (SimCLR, CPC), è un bound…