Математиката на несигурността
KL дивергенцията (Kullback-Leibler divergence) измерва колко далеч е едно разпределение q от друго разпределение p: това е допълнителната изненада, която изпитвате, когато моделирате реалността p с погрешно разпределение q. Това е разликата (празнината) в кръстосаната ентропия:
Два факта я правят основната мярка за „разстояние“ в машинното обучение. Според неравенството на Гибс (Gibbs' inequality) тя винаги е ≥ 0 и е нула тогава и само тогава, когато q = p. Следователно, свеждането на KL до 0 означава, че вашият модел съвпада идеално с истината.
KL дивергенцията не е симетрична: в общия случай KL(p‖q) ≠ KL(q‖p), и освен това не удовлетворява неравенството на триъгълника. Тази асиметрия обаче има дълбок смисъл, тъй като двете посоки наказват различни видове грешки. KL(p‖q) наказва строго q, когато е малко там, където p е голямо (т.нар. "mode covering"); докато KL(q‖p) наказва q, ако разпределя вероятностна маса там, където p има нулева вероятност (т.нар. "mode seeking").