Oczekiwanie-Maksymalizacja (EM)

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Czasami najważniejsza zmienna to właśnie ta, której absolutnie nigdy nie jesteś w stanie zaobserwować wprost. Z jakiego dokładnie klastra pochodzi dany punkt? Jaki główny temat wygenerował cały analizowany dokument? Tego typu ukryte zmienne latentne (utajone) Z bardzo utrudniają zadanie polegające na maksymalizacji wiarygodności: nie możesz po prostu z marszu zmaksymalizować funkcji log-wiarygodności, ponieważ zawiera ona teraz sumę wewnątrz samego logarytmu. Algorytm oczekiwanie-maksymalizacja (EM) okazuje się w takich sytuacjach niezwykle eleganckim rozwiązaniem.

Algorytm EM skutecznie rozbija trudną wspólną optymalizację na dwa łatwiejsze, naprzemiennie wykonywane kroki, powtarzane aż do osiągnięcia pełnej zbieżności:

Wielkością, którą z każdą rundą faktycznie podnosi (maksymalizuje) w pętli algorytm EM, jest w rzeczywistości dolne ograniczenie wyliczanej log-wiarygodności, potocznie określane jako ELBO (Evidence Lower Bound). Krok E domyka (zaciska) tę granicę od dołu; krok M dba o to, by jeszcze wyżej ją podnieść.

Gdzie to występuje w MLAlgorytm EM to główny silnik napędowy dla mieszanek gaussowskich (GMM) oraz ogólnie pojętego klastrowania, a jego specyficzna struktura E/M to w prostej linii konceptualny przodek wariacyjnych autoenkoderów (VAE). Enkoder VAE pełni tu rolę kroku E (wnioskując o zmiennej latentnej z), podczas gdy dekoder wespół z celem ELBO stanowią krok M. Wzorzec „zmaksymalizuj dolne ograniczenie poprzez…

▶ Oczekiwanie-Maksymalizacja (EM)

← Modele generatywne vs dyskryminatywne Nierówności koncentracji (w pigułce) →