המתמטיקה של אי־ודאות
התבדרות KL מודדת כמה התפלגות אחת q רחוקה מהתפלגות אחרת p: ההפתעה העודפת שאתה משלם כשאתה ממדל את המציאות p בעזרת ההתפלגות הלא־נכונה q. זהו הפער הטמון בתוך האנטרופיה הצולבת:
שתי עובדות הופכות אותה ל"מרחק" שהוא סוס העבודה של ML. לפי אי־שוויון גיבס היא תמיד ≥ 0, והיא אפס בדיוק כאשר q = p. לכן דחיפת KL לעבר 0 פירושה לגרום למודל להתאים את האמת בצורה מושלמת.
KL אינה סימטרית: KL(p‖q) ≠ KL(q‖p) באופן כללי, והיא מפרה את אי־שוויון המשולש. אי־הסימטריה משמעותית, מפני ששני הכיוונים מענישים כשלים שונים. KL(p‖q) מענישה את q בחומרה על היותה קטנה במקומות שבהם p גדולה (התנהגות "מכסת־מודים"); KL(q‖p) מענישה את q על פיזור מסה במקומות שבהם ל־p אין כלל (התנהגות "מחפשת־מודים").