Information Mutuelle

Les mathématiques de l'incertitude

L'information mutuelle mesure combien la connaissance d'une variable vous apprend sur une autre : la réduction d'incertitude sur X une fois que vous observez Y. C'est la divergence KL entre la jointe vraie et le produit des marginales « en prétendant qu'elles sont indépendantes » :

Parce que c'est une KL, elle est toujours ≥ 0, et elle est nulle exactement quand X et Y sont indépendants, le cas où la jointe se factorise vraiment en produit des marginales. Plus la jointe s'éloigne de l'indépendance, plus les variables partagent d'information.

De façon équivalente, c'est la baisse d'entropie de X en apprenant Y :

Où cela apparaît en MLL'information mutuelle quantifie combien une représentation conserve de son entrée. Le principe du goulot d'information définit une bonne représentation Z comme celle qui maximise I(Z; Y) (garder ce qui prédit le label) tout en minimisant I(Z; X) (jeter le détail d'entrée non pertinent). InfoNCE, la loss derrière l'apprentissage auto-supervisé contrastif (SimCLR, CPC), est une borne inférieure…
▶ Information Mutuelle
← Divergence KLLoi des Grands Nombres →