מידע הדדי מודד כמה ידיעת משתנה אחד מלמדת אותך על משתנה אחר: ההפחתה באי־הוודאות לגבי X ברגע שאתה מתבונן ב־Y. זוהי התבדרות KL בין ההתפלגות המשותפת האמיתית לבין מכפלת השוליים, שכאילו "מעמידה פנים שהמשתנים בלתי־תלויים":
מאחר שזוהי התבדרות KL, היא תמיד ≥ 0, והיא אפס בדיוק כאשר X ו־Y בלתי־תלויים — המקרה שבו ההתפלגות המשותפת אכן מתפרקת למכפלת השוליים. ככל שההתפלגות המשותפת רחוקה יותר מאי־תלות, כך המשתנים חולקים יותר מידע.
באופן שקול, זה הירידה באנטרופיה של X מלמידת Y:
איפה זה ב־MLמידע הדדי מכמת כמה מהקלט שלו שומר ייצוג מסוים. עקרון צוואר הבקבוק מגדיר ייצוג טוב Z ככזה שממקסם את I(Z; Y) (שומר על מה שחוזה את התווית) תוך מזעור I(Z; X) (משמיט פרטי קלט לא רלוונטיים). InfoNCE, ההפסד שבבסיס למידה עצמית קונטרסטיבית (SimCLR, CPC), הוא חסם תחתון פתיר על המידע ההדדי בין שתי תצפיות של אותם נתונים.