KL дивергенция (Kullback-Leibler) — Вероятност

KL дивергенцията (Kullback-Leibler divergence) измерва колко далеч е едно разпределение q от друго разпределение p: това е допълнителната изненада, която изпитвате, когато моделирате реалността p с погрешно разпределение q. Това е разликата (празнината) в кръстосаната ентропия:

Два факта я правят основната мярка за „разстояние“ в машинното обучение. Според неравенството на Гибс (Gibbs' inequality) тя винаги е ≥ 0 и е нула тогава и само тогава, когато q = p. Следователно, свеждането на KL до 0 означава, че вашият модел съвпада идеално с истината.

KL дивергенцията не е симетрична: в общия случай KL(p‖q) ≠ KL(q‖p), и освен това не удовлетворява неравенството на триъгълника. Тази асиметрия обаче има дълбок смисъл, тъй като двете посоки наказват различни видове грешки. KL(p‖q) наказва строго q, когато е малко там, където p е голямо (т.нар. "mode covering"); докато KL(q‖p) наказва q, ако разпределя вероятностна маса там, където p има нулева вероятност (т.нар. "mode seeking").

Къде се използва това в MLДолната граница ELBO при VAE съдържа KL член, който притегля латентното разпределение на енкодера към приора N(0, I) – това действа като регуляризатор, който поддържа добре структурирано латентно пространство. RL алгоритми като PPO/TRPO ограничават всяко обновяване на политиката с KL „доверителен регион“ (trust region), за да не се отклони новата политика твърде далеч от старата. Дестилацията на…