Expectation-Maximization (EM)

Inferência, estimação e tomada de decisão a partir de dados

Por vezes, a variável mais importante é uma que nunca chegas a observar. De que cluster veio este ponto? Que tópico gerou este documento? Estas variáveis latentes Z, ocultas, tornam a máxima verosimilhança difícil: já não basta maximizar a log-verosimilhança, porque passa a conter uma soma dentro de um logaritmo. O algoritmo Expectation–Maximization (EM) é a solução elegante.

O EM decompõe uma otimização conjunta difícil em dois passos alternados e fáceis, repetidos até à convergência:

A quantidade que o EM efetivamente empurra para cima em cada rodada é um limite inferior da log-verosimilhança chamado ELBO (evidence lower bound). O passo E aperta o limite; o passo M eleva-o.

Onde isto aparece no MLO EM é o motor por trás dos modelos de mistura de gaussianas e do clustering, e a sua estrutura E/M é a antepassada conceptual dos variational autoencoders. O encoder de um VAE desempenha o papel do passo E (inferir o latente z), enquanto o decoder e o objetivo ELBO desempenham o passo M. O padrão "maximizar um limite inferior alternando entre inferir latentes e atualizar parâmetros" está por…

▶ Expectation-Maximization (EM)

← Generativo vs Discriminativo Desigualdades de Concentração (breve) →