تباعد KL — الاحتمالات · Mathematics for Machine Learning

تباعد KL يقيس مدى بُعد توزيع q عن توزيع آخر p: الدهشة الإضافية التي تدفعها لنمذجة الواقع p بالتوزيع الخاطئ q. إنه الفجوة الكامنة داخل الإنتروبيا المتقاطعة:

حقيقتان تجعلانه "المسافة" الأساسية لتعلم الآلة. بموجب متباينة غيبس فهو دائمًا ≥ 0، ويكون صفرًا تحديدًا عندما q = p. لذا فإن دفع KL إلى 0 يعني جعل نموذجك يطابق الحقيقة تمامًا.

KL غير متماثل: KL(p‖q) ≠ KL(q‖p) بشكل عام، وهو يخالف متباينة المثلث. عدم التماثل له معنى، لأن الاتجاهين يكافئان إخفاقات مختلفة. KL(p‖q) يعاقب q بشدة لكونه صغيرًا حيث يكون p كبيرًا (فهو "مغطٍّ للأنماط")؛ بينما KL(q‖p) يعاقب q لنشره كتلة حيث لا يملك p شيئًا (فهو "باحث عن نمط").

أين يظهر هذا في تعلّم الآلةيحتوي حد ELBO لدى المرمّز التلقائي المتغير (VAE) على حد KL يجذب توزيع المُرمِّز الكامن نحو التوزيع المسبق N(0, I)، وهو منظّم يبقي الفضاء الكامن منضبطًا. أساليب التعلم المعزز مثل PPO/TRPO تقيّد كل تحديث للسياسة بـ"منطقة ثقة" من KL كي لا تقفز السياسة الجديدة بعيدًا أكثر مما ينبغي. وتقطير المعرفة يصغّر KL بين توزيعي مخرجات معلّم كبير وطالب صغير.