Erwartung-Maximierung (EM)

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Manchmal ist die wichtigste Variable eine, die man nie beobachtet. Aus welchem Cluster stammt dieser Datenpunkt? Welches Thema hat dieses Dokument erzeugt? Solche verborgenen latenten Variablen Z machen Maximum-Likelihood-Probleme schwierig: Man kann die Log-Likelihood nicht einfach maximieren, weil sie nun eine Summe innerhalb eines Logarithmus enthält. Der Erwartungs-Maximierungs-Algorithmus (EM) ist die elegante Lösung.

EM zerlegt eine schwierige gemeinsame Optimierung in zwei einfache, abwechselnde Schritte, die bis zur Konvergenz wiederholt werden:

Die Größe, die EM in jeder Runde tatsächlich anhebt, ist eine untere Schranke der Log-Likelihood, die ELBO (Evidence Lower Bound) genannt wird. Der E-Schritt zieht die Schranke enger; der M-Schritt hebt sie an.

Wo das im ML vorkommtEM ist der Motor hinter gaußschen Mischverteilungen und Clustering, und seine E/M-Struktur ist der begriffliche Vorfahr der Variational Autoencoder. Der Encoder eines VAE übernimmt die Rolle des E-Schritts (er inferiert die latente Variable z), während Decoder und ELBO-Ziel den M-Schritt übernehmen. Das Muster „eine untere Schranke maximieren, indem man abwechselnd latente Variablen inferiert und…

▶ Erwartung-Maximierung (EM)

← Generativ versus Diskriminativ Konzentrationsungleichungen (kurz) →