Очакване–максимизиране (EM) — Статистика

Понякога най-важната променлива е тази, която никога не наблюдавате. От кой клъстер идва тази точка? Коя тема е генерирала този документ? Тези скрити латентни променливи Z правят оценката по метода на максималната правдоподобност (maximum likelihood) трудна: не можете просто да максимизирате логаритмичната правдоподобност (log-likelihood), защото тя вече съдържа сума вътре в логаритъма. Очакване–максимизиране (Expectation-Maximization, EM) е елегантното решение.

Алгоритъмът EM разделя трудната съвместна оптимизация на две лесни, редуващи се стъпки, които се повтарят до конвергенция:

Величината, която EM действително тласка нагоре при всяка итерация, е долна граница на логаритмичната правдоподобност, наречена ELBO (Evidence Lower BOund). E-стъпката затяга тази граница; M-стъпката я издига нагоре.

Къде се използва това в MLEM е двигателят зад моделите на Гаусови смеси (GMM) и клъстерирането с меки граници, а неговата структура от E/M стъпки е концептуалният предшественик на вариационните автоенкодери (VAE). Енкодерът на VAE играе ролята на E-стъпката (извеждане на латентното z), а декодерът и целевата функция ELBO играят ролята на M-стъпката. Тази схема на „максимизиране на долна граница чрез редуване между…