Математика неопределённости
KL-расхождение измеряет, насколько одно распределение q от другого p: дополнительный сюрприз за моделирование реальности p неверным распределением q. Это разрыв внутри кросс-энтропии:
Два факта делают его рабочей «дистанцией» ML. По неравенству Гиббса оно всегда ≥ 0 и ноль ровно когда q = p. Так что движение KL к 0 значит идеальное совпадение модели с истиной.
KL несимметрично: KL(p‖q) ≠ KL(q‖p) в общем, и нарушает неравенство треугольника. Асимметрия осмысленна, направления вознаграждают разные ошибки. KL(p‖q) сильно наказывает q за малость там, где p велико («покрытие мод»); KL(q‖p) наказывает q за размазывание массы там, где p не имеет («поиск мод»).