Divergensi KL

Matematika ketidakpastian

Divergensi KL mengukur seberapa jauh satu distribusi q dari yang lain p: kejutan ekstra yang Anda bayar untuk memodelkan realitas p dengan distribusi salah q. Itu celah di dalam cross-entropy:

Dua fakta membuatnya kuda kerja "jarak" ML. Menurut ketidaksamaan Gibbs selalu ≥ 0, dan nol tepat saat q = p. Jadi mendorong KL ke 0 berarti membuat model cocok dengan kebenaran sempurna.

KL tidak simetris: KL(p‖q) ≠ KL(q‖p) secara umum, dan melanggar ketidaksamaan segitiga. Asimetri bermakna, karena dua arah memberi penghargaan kegagalan berbeda. KL(p‖q) menghukum q berat karena kecil di mana p besar ("mode-covering"); KL(q‖p) menghukum q karena menyebarkan massa di mana p tidak punya ("mode-seeking").

Di mana ini berlaku dalam MLELBO VAE punya suku KL menarik distribusi laten encoder ke prior N(0, I), regularizer yang menjaga ruang laten berperilaku baik. Metode RL seperti PPO/TRPO membatasi setiap pembaruan policy dengan "trust region" KL agar policy baru tidak melompat terlalu jauh. Knowledge distillation meminimalkan KL antara distribusi keluaran teacher besar dan student kecil.

▶ Divergensi KL

← Cross-Entropy Informasi Mutual →