Mutual Information

Die Mathematik der Unsicherheit

Die Transinformation (Mutual Information) misst, wie viel die Kenntnis der einen Variablen über eine andere verrät: die Verringerung der Unsicherheit über X, sobald man Y beobachtet. Sie ist die KL-Divergenz zwischen der echten gemeinsamen Verteilung und dem Produkt der Randverteilungen, das so tut, als wären die Variablen unabhängig:

Da sie eine KL-Divergenz ist, ist sie immer ≥ 0, und sie ist genau dann null, wenn X und Y unabhängig sind – also in dem Fall, in dem die gemeinsame Verteilung tatsächlich in das Produkt der Randverteilungen zerfällt. Je weiter die gemeinsame Verteilung von Unabhängigkeit entfernt ist, desto mehr Information teilen die Variablen.

Gleichbedeutend ist sie der Abfall der Entropie von X dadurch, dass man Y erfährt:

Wo das im ML vorkommtDie Transinformation quantifiziert, wie viel eine Repräsentation über ihre Eingabe behält. Das Information-Bottleneck-Prinzip fasst eine gute Repräsentation Z als eine auf, die I(Z; Y) maximiert (behalte, was das Label vorhersagt) und zugleich I(Z; X) minimiert (verwirf irrelevante Details der Eingabe). InfoNCE, der Verlust hinter dem kontrastiven selbstüberwachten Lernen (SimCLR, CPC), ist eine…

▶ Mutual Information

← KL-Divergenz Gesetz der großen Zahlen →