互信息
不确定性的数学
互信息测量知道一个变量能告诉你关于另一个变量多少信息:观察到 Y 后,关于 X 的不确定性减少了多少。它是真实联合分布与“假装它们独立”的边缘分布乘积之间的 KL 散度:
因为它是 KL,所以它总是 ≥ 0,并且只有当 X 和 Y 独立时才为零;这时联合分布确实可以分解成边缘分布的乘积。联合分布离独立越远,变量共享的信息就越多。
等价地,它是观察 Y 后 X 的熵下降量:
在机器学习中的应用互信息量化一个表示保留了多少输入信息。信息瓶颈原则把好的表示 Z 描述为:最大化 I(Z; Y)(保留预测标签所需的信息),同时最小化 I(Z; X)(丢掉无关输入细节)。InfoNCE,也就是对比自监督学习(SimCLR、CPC)背后的损失,是同一数据不同视图之间互信息的可处理下界。
▶ 互信息