Inferenza, stima e processo decisionale dai dati
A volte la variabile più importante è proprio quella che non osservi mai. Da quale cluster proviene questo punto? Quale argomento ha generato questo documento? Queste variabili latenti nascoste Z rendono ardua la massima verosimiglianza: non puoi semplicemente massimizzare la log-verosimiglianza, perché ora contiene una somma all'interno di un logaritmo. L'Expectation-Maximization (EM) è la soluzione elegante.
EM spezza una difficile ottimizzazione congiunta in due semplici passi alternati, ripetuti fino a convergenza:
La quantità che EM spinge effettivamente verso l'alto a ogni iterazione è un limite inferiore della log-verosimiglianza chiamato ELBO (evidence lower bound). Il passo E rende il limite più stretto; il passo M lo alza.