De wiskunde van onzekerheid
Wederzijdse informatie meet hoeveel het kennen van de ene variabele je over een andere vertelt: de vermindering van onzekerheid over X zodra je Y waarneemt. Het is de KL-divergentie tussen de ware gezamenlijke verdeling en het "doe alsof ze onafhankelijk zijn"-product van marginalen:
Omdat het een KL is, is het altijd ≥ 0, en het is precies nul wanneer X en Y onafhankelijk zijn, het geval waarin de gezamenlijke verdeling werkelijk ontbindt in het product van marginalen. Hoe verder de gezamenlijke verdeling van onafhankelijkheid af ligt, hoe meer informatie de variabelen delen.
Equivalent is het de daling in entropie van X door het leren van Y: