Взаимная информация измеряет, насколько знание одной переменной говорит о другой: снижение неопределённости о X при наблюдении Y. Это KL-расхождение между истинным совместным и «притворимся независимыми» произведением маргиналов:
Поскольку это KL, она всегда ≥ 0 и ноль ровно когда X и Y независимы — случай, где совместное действительно факторизуется в произведение маргиналов. Чем дальше совместное от независимости, тем больше информации переменные делят.
Эквивалентно, это падение энтропии X от изучения Y:
Где это встречается в MLВзаимная информация квантифицирует, сколько представление сохраняет о входе. Принцип информационного бутылочного горлышка формулирует хорошее представление Z как максимизирующее I(Z; Y) (сохранить то, что предсказывает метку) при минимизации I(Z; X) (отбросить нерелевантные детали входа). InfoNCE, потеря за контрастивным самообучением (SimCLR, CPC), — tractable нижняя граница взаимной информации…