Distribuições Marginais

A matemática da incerteza

Dada uma conjunta p(x, y), supõe que só te interessa X e queres esquecer Y. O que fazes é marginalizar: somar (ou integrar) a conjunta sobre todos os valores da variável que não queres. O que sobra é a distribuição marginal de X por si só.

O nome vem das antigas tabelas de probabilidade: somava-se cada linha e escrevia-se o total na margem. Essas somas das linhas são a marginal de uma das variáveis, e as somas das colunas são a marginal da outra. Marginalizar significa "integrar e fazer desaparecer a variável que não nos interessa".

Pegue nessa tabela de dupla entrada de altura–peso e suponha que apenas se preocupa com a altura, ignorando completamente o peso. Simplesmente soma cada linha da conjunta p(x, y) e anota o total na margem — esse total da linha é a frequência com que cada altura ocorre, não importa o peso. Ler apenas esses totais na margem dá a distribuição marginal de X, a variável vista por si só.

Onde isto aparece no MLMarginalizar variáveis latentes é, ao mesmo tempo, o cálculo central e a principal dor de cabeça da modelação generativa. A verosimilhança dos dados é p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz, um integral sobre cada latente z possível. Esse integral é, em geral, intratável, e é precisamente por isso que os VAE otimizam um limite inferior tratável (o ELBO) em vez de calcularem a marginal…
▶ Distribuições Marginais
← Distribuições ConjuntasDistribuições Condicionais →