Expectation-Maximization (EM)

Inferenza, stima e processo decisionale dai dati

A volte la variabile più importante è proprio quella che non osservi mai. Da quale cluster proviene questo punto? Quale argomento ha generato questo documento? Queste variabili latenti nascoste Z rendono ardua la massima verosimiglianza: non puoi semplicemente massimizzare la log-verosimiglianza, perché ora contiene una somma all'interno di un logaritmo. L'Expectation-Maximization (EM) è la soluzione elegante.

EM spezza una difficile ottimizzazione congiunta in due semplici passi alternati, ripetuti fino a convergenza:

La quantità che EM spinge effettivamente verso l'alto a ogni iterazione è un limite inferiore della log-verosimiglianza chiamato ELBO (evidence lower bound). Il passo E rende il limite più stretto; il passo M lo alza.

Dove si trova nel MLEM è il motore dietro i modelli di mistura gaussiana e il clustering, e la sua struttura E/M è l'antenato concettuale dei variational autoencoder. L'encoder di una VAE svolge il ruolo del passo E (inferire la variabile latente z), mentre il decoder e l'obiettivo ELBO svolgono il passo M. Lo schema "massimizza un limite inferiore alternando l'inferenza delle variabili latenti e l'aggiornamento dei…

▶ Expectation-Maximization (EM)

← Generativo vs Discriminativo Disuguaglianze di Concentrazione (breve) →