Wederzijdse informatie

De wiskunde van onzekerheid

Wederzijdse informatie meet hoeveel het kennen van de ene variabele je over een andere vertelt: de vermindering van onzekerheid over X zodra je Y waarneemt. Het is de KL-divergentie tussen de ware gezamenlijke verdeling en het "doe alsof ze onafhankelijk zijn"-product van marginalen:

Omdat het een KL is, is het altijd ≥ 0, en het is precies nul wanneer X en Y onafhankelijk zijn, het geval waarin de gezamenlijke verdeling werkelijk ontbindt in het product van marginalen. Hoe verder de gezamenlijke verdeling van onafhankelijkheid af ligt, hoe meer informatie de variabelen delen.

Equivalent is het de daling in entropie van X door het leren van Y:

Waar dit voorkomt in MLWederzijdse informatie kwantificeert hoeveel een representatie over haar input behoudt. Het informatie-bottleneck-principe vat een goede representatie Z op als één die I(Z; Y) maximaliseert (behoud wat het label voorspelt) terwijl het I(Z; X) minimaliseert (laat irrelevant inputdetail vallen). InfoNCE, de verliesfunctie achter contrastief zelf-gesuperviseerd leren (SimCLR, CPC), is een handelbare…

▶ Wederzijdse informatie

← KL-divergentie Wet van de Grote Aantallen →