KL-расхождение — Вероятность · Mathematics for Machine Learning

KL-расхождение измеряет, насколько одно распределение q от другого p: дополнительный сюрприз за моделирование реальности p неверным распределением q. Это разрыв внутри кросс-энтропии:

Два факта делают его рабочей «дистанцией» ML. По неравенству Гиббса оно всегда ≥ 0 и ноль ровно когда q = p. Так что движение KL к 0 значит идеальное совпадение модели с истиной.

KL несимметрично: KL(p‖q) ≠ KL(q‖p) в общем, и нарушает неравенство треугольника. Асимметрия осмысленна, направления вознаграждают разные ошибки. KL(p‖q) сильно наказывает q за малость там, где p велико («покрытие мод»); KL(q‖p) наказывает q за размазывание массы там, где p не имеет («поиск мод»).

Где это встречается в MLELBO VAE содержит KL-член, тянущий латентное распределение энкодера к априорному N(0, I), регуляризатор, держащий латентное пространство послушным. Методы RL вроде PPO/TRPO ограничивают каждое обновление политики KL «зоной доверия», чтобы новая политика не дёргалась слишком далеко. Дистилляция знаний минимизирует KL между выходными распределениями большого учителя и маленького ученика.