Expectation-Maximization (EM)

Inferência, estimação e tomada de decisão a partir de dados

Por vezes, a variável mais importante é uma que você nunca chega a observar. De que cluster veio este ponto? Que tópico gerou este documento? Estas variáveis latentes Z, ocultas, tornam a máxima verossimilhança difícil: já não basta maximizar a log-verossimilhança, porque ela passa a conter uma soma dentro de um logaritmo. O algoritmo Expectation–Maximization (EM) é a solução elegante.

O EM decompõe uma otimização conjunta difícil em dois passos alternados e fáceis, repetidos até a convergência:

A quantidade que o EM efetivamente empurra para cima em cada rodada é um limite inferior da log-verossimilhança chamado ELBO (evidence lower bound). O passo E aperta o limite; o passo M o eleva.

Onde isso aparece no MLO EM é o motor por trás dos modelos de mistura de gaussianas e do clustering, e a sua estrutura E/M é a antepassada conceitual dos variational autoencoders. O encoder de um VAE desempenha o papel do passo E (inferir o latente z), enquanto o decoder e o objetivo ELBO desempenham o passo M. O padrão "maximizar um limite inferior alternando entre inferir latentes e atualizar parâmetros" está por…

▶ Expectation-Maximization (EM)

← Generativo vs Discriminativo Desigualdades de Concentração (breve) →