A informação mútua mede quanto conhecer uma variável nos diz sobre outra: a redução da incerteza acerca de X assim que observamos Y. É a divergência KL entre a conjunta verdadeira e o produto das marginais — o produto do "façamos de conta que são independentes":
Por ser uma KL, é sempre ≥ 0, e é nula exatamente quando X e Y são independentes, o caso em que a conjunta de facto fatora no produto das marginais. Quanto mais longe a conjunta estiver da independência, mais informação as variáveis partilham.
De forma equivalente, é a queda na entropia de X ao aprender Y:
Onde isto aparece no MLA informação mútua quantifica quanta informação uma representação retém sobre a sua entrada. O princípio do information bottleneck caracteriza uma boa representação Z como aquela que maximiza I(Z; Y) (retém o que prevê o rótulo) ao mesmo tempo que minimiza I(Z; X) (descarta o detalhe irrelevante da entrada). A InfoNCE, a função de perda por trás da aprendizagem auto-supervisionada contrastiva…