Взаимна информация (Mutual Information) — Вероятност

Взаимната информация (Mutual Information - MI) измерва доколко познаването на една величина ви дава информация за друга: това е намаляването на несигурността за X, след като вече сте наблюдавали Y. Тя е еквивалентна на KL дивергенцията между истинското съвместно разпределение и произведението от маргиналните (сякаш се преструваме, че са независими):

Тъй като всъщност е KL дивергенция, тя е винаги ≥ 0 и е нула тогава и само тогава, когато X и Y са независими – случаят, при който съвместното разпределение реално се разлага като произведение от маргиналите. Колкото по-далеч е съвместното разпределение от състояние на независимост, толкова повече информация споделят двете величини.

Еквивалентно, това е спадът в ентропията на X в резултат на научаването на стойността на Y:

Къде се използва това в MLВзаимната информация измерва количествено колко информация дадено репрезентиране (representation) запазва за своя първоначален вход. Принципът на информационното тясно място (Information Bottleneck) дефинира едно добро репрезентиране Z като такова, което максимизира I(Z; Y) (запазва всичко, което е полезно за предсказване на етикета Y), като същевременно минимизира I(Z; X) (отхвърля ненужните…