互信息

不确定性的数学

互信息测量知道一个变量能告诉你关于另一个变量多少信息：观察到 Y 后，关于 X 的不确定性减少了多少。它是真实联合分布与“假装它们独立”的边缘分布乘积之间的 KL 散度：

因为它是 KL，所以它总是 ≥ 0，并且只有当 X 和 Y 独立时才为零；这时联合分布确实可以分解成边缘分布的乘积。联合分布离独立越远，变量共享的信息就越多。

等价地，它是观察 Y 后 X 的熵下降量：

在机器学习中的应用互信息量化一个表示保留了多少输入信息。信息瓶颈原则把好的表示 Z 描述为：最大化 I(Z; Y)（保留预测标签所需的信息），同时最小化 I(Z; X)（丢掉无关输入细节）。InfoNCE，也就是对比自监督学习（SimCLR、CPC）背后的损失，是同一数据不同视图之间互信息的可处理下界。

▶ 互信息

← KL 散度大数定律 →