Expectation-Maximization (EM)

Inférence, estimation et prise de décision à partir des données

Parfois la variable la plus importante est une que vous n'observez jamais. De quel cluster ce point vient-il ? Quel sujet a généré ce document ? Ces variables latentes cachées Z rendent le maximum de vraisemblance difficile : vous ne pouvez pas juste maximiser la log-vraisemblance parce qu'elle contient maintenant une somme à l'intérieur d'un log. L'Expectation–Maximization (EM) est la solution élégante.

EM casse une optimisation jointe difficile en deux étapes alternées faciles, répétées jusqu'à convergence :

La quantité qu'EM pousse réellement vers le haut à chaque tour est une borne inférieure de la log-vraisemblance appelée l'ELBO (evidence lower bound). L'étape E resserre la borne ; l'étape M l'élève.

Où cela apparaît en MLEM est le moteur derrière les modèles de mélange gaussien et le clustering, et sa structure E/M est l'ancêtre conceptuel des autoencodeurs variationnels. L'encodeur d'un VAE joue le rôle de l'étape E (inférence du latent z), le décodeur et l'objectif ELBO jouent l'étape M. Le motif « maximiser une borne inférieure en alternant entre inférer les latents et mettre à jour les paramètres » est…

▶ Expectation-Maximization (EM)

← Génératif vs Discriminatif Inégalités de Concentration (bref) →