התבדרות KL — הסתברות · Mathematics for Machine Learning

התבדרות KL מודדת כמה התפלגות אחת q רחוקה מהתפלגות אחרת p: ההפתעה העודפת שאתה משלם כשאתה ממדל את המציאות p בעזרת ההתפלגות הלא־נכונה q. זהו הפער הטמון בתוך האנטרופיה הצולבת:

שתי עובדות הופכות אותה ל"מרחק" שהוא סוס העבודה של ML. לפי אי־שוויון גיבס היא תמיד ≥ 0, והיא אפס בדיוק כאשר q = p. לכן דחיפת KL לעבר 0 פירושה לגרום למודל להתאים את האמת בצורה מושלמת.

KL אינה סימטרית: KL(p‖q) ≠ KL(q‖p) באופן כללי, והיא מפרה את אי־שוויון המשולש. אי־הסימטריה משמעותית, מפני ששני הכיוונים מענישים כשלים שונים. KL(p‖q) מענישה את q בחומרה על היותה קטנה במקומות שבהם p גדולה (התנהגות "מכסת־מודים"); KL(q‖p) מענישה את q על פיזור מסה במקומות שבהם ל־p אין כלל (התנהגות "מחפשת־מודים").

איפה זה ב־MLELBO של VAE כולל איבר KL שמושך את התפלגות הסמויה של המקודד לעבר ההתפלגות הקודמת N(0, I), רגולריזטור ששומר על המרחב הסמוי מתנהג היטב. שיטות RL כמו PPO/TRPO מגבילות כל עדכון מדיניות עם "אזור אמון" KL כדי שהמדיניות החדשה לא תקפוץ רחוק מדי. זיקוק ידע ממזער KL בין התפלגויות הפלט של מורה גדול ותלמיד קטן.