KL विचलन — संभावना · Mathematics for Machine Learning

KL विचलन मापता एक वितरण q दूसरे p से कितनी दूर: वह अतिरिक्त आश्चर्यकता जो आप वास्तविकता p को गलत वितरण q से मॉडल पर देते। यह क्रॉस-एन्ट्रॉपी के भीतर का अंतर:

दो तथ्य इसे ML का कार्यसाधक "दूरी" बनाते। गिब्स असमिका से हमेशा ≥ 0, और शून्य ठीक जब q = p। तो KL को 0 तक ले जाना मॉडल को सत्य से पूर्ण मिलान।

KL असममित: KL(p‖q) ≠ KL(q‖p) सामान्यतः, और त्रिभुज असमिका उल्लंघन। असममिति सार्थक, क्योंकि दो दिशाएँ अलग विफलताएँ पुरस्कृत। KL(p‖q) q को कठोर दंडित जहाँ p बड़ा (यह "विधा-आवरण"); KL(q‖p) q को दंडित जहाँ p का कोई द्रव्यमान नहीं वहाँ फैलाने पर (यह "विधा-खोज")।

ML में इसका स्थानएक VAE के ELBO में एक KL पद एनकोडर के गुप्त वितरण को prior N(0, I) की ओर खींचता, एक नियमितकारक जो गुप्त स्थान अच्छा रखता। RL विधियाँ जैसे PPO/TRPO हर नीति अद्यतन को एक KL "विश्वास क्षेत्र" से बाँधती ताकि नई नीति बहुत दूर न झटके। ज्ञान आसवन एक बड़े शिक्षक और छोटे विद्यार्थी के आउटपुट वितरणों के बीच KL न्यूनतम।