상호 정보량 — 확률 · Mathematics for Machine Learning

상호 정보량은 한 변수를 아는 것이 다른 변수에 대해 얼마나 많은 것을 알려 주는지를 측정합니다. Y를 관찰한 뒤 X에 대한 불확실성이 줄어드는 양이지요. 이는 진짜 결합 분포와 «독립이라고 가정한» 주변 분포의 곱 사이의 KL 발산입니다:

KL이기 때문에 항상 ≥ 0이고, 정확히 X와 Y가 독립일 때만 0이 됩니다. 그때는 결합 분포가 정말로 주변 분포의 곱으로 인수분해됩니다. 결합 분포가 독립에서 멀어질수록 두 변수는 더 많은 정보를 공유합니다.

같은 양을 다르게 보면, Y를 알게 됨으로써 X의 엔트로피가 줄어드는 정도입니다:

머신러닝에서의 위치상호 정보량은 어떤 표현이 입력에 대해 얼마나 많은 정보를 간직하는지를 정량화합니다. 정보 병목 원리는 좋은 표현 Z를, I(Z; Y)를 최대화하면서(레이블을 예측하는 정보는 간직) 동시에 I(Z; X)를 최소화하는(무관한 입력 세부는 버림) 것으로 정의합니다. InfoNCE는 대조적 자기지도 학습(SimCLR, CPC)을 떠받치는 손실로, 같은 데이터의 서로 다른 뷰 사이의 상호 정보량에 대한 계산 가능한 하한입니다.