相互情報量 — 確率 · Mathematics for Machine Learning

相互情報量は一方の変数を知ることで他方についてどれだけ分かるかを測る：Yを観測した後のXについての不確実性の減少です。真の同時分布と「独立だと仮定した」周辺の積の間のKLダイバージェンスです：

KLなので常に ≥ 0で、ゼロになるのはちょうどXとYが独立のとき、同時が本当に周辺の積に分解するケースです。同時が独立から遠いほど、変数が共有する情報が多い。

機械学習における位置づけ相互情報量は表現が入力についてどれだけ保つかを定量化する。情報ボトルネック原理は良い表現ZをI(Z; Y)を最大化し（ラベルを予測するものを保つ）I(Z; X)を最小化する（無関係な入力詳細を落とす）ものとして定式化する。InfoNCE、対照的自己教師あり学習(SimCLR、CPC)の背後の損失は、同じデータのビュー間の相互情報量の扱いやすい下限です。