KL विचलन

अनिश्चितता का गणित

KL विचलन मापता एक वितरण q दूसरे p से कितनी दूर: वह अतिरिक्त आश्चर्यकता जो आप वास्तविकता p को गलत वितरण q से मॉडल पर देते। यह क्रॉस-एन्ट्रॉपी के भीतर का अंतर:

दो तथ्य इसे ML का कार्यसाधक "दूरी" बनाते। गिब्स असमिका से हमेशा ≥ 0, और शून्य ठीक जब q = p। तो KL को 0 तक ले जाना मॉडल को सत्य से पूर्ण मिलान।

KL असममित: KL(p‖q) ≠ KL(q‖p) सामान्यतः, और त्रिभुज असमिका उल्लंघन। असममिति सार्थक, क्योंकि दो दिशाएँ अलग विफलताएँ पुरस्कृत। KL(p‖q) q को कठोर दंडित जहाँ p बड़ा (यह "विधा-आवरण"); KL(q‖p) q को दंडित जहाँ p का कोई द्रव्यमान नहीं वहाँ फैलाने पर (यह "विधा-खोज")।

ML में इसका स्थानएक VAE के ELBO में एक KL पद एनकोडर के गुप्त वितरण को prior N(0, I) की ओर खींचता, एक नियमितकारक जो गुप्त स्थान अच्छा रखता। RL विधियाँ जैसे PPO/TRPO हर नीति अद्यतन को एक KL "विश्वास क्षेत्र" से बाँधती ताकि नई नीति बहुत दूर न झटके। ज्ञान आसवन एक बड़े शिक्षक और छोटे विद्यार्थी के आउटपुट वितरणों के बीच KL न्यूनतम।
▶ KL विचलन
← क्रॉस-एन्ट्रॉपीपारस्परिक सूचना →