Distribuições Marginais

A matemática da incerteza

Dada uma conjunta p(x, y), suponha que só lhe interessa X e você quer esquecer Y. O que você faz é marginalizar: somar (ou integrar) a conjunta sobre todos os valores da variável que você não quer. O que sobra é a distribuição marginal de X por si só.

O nome vem das antigas tabelas de probabilidade: somava-se cada linha e escrevia-se o total na margem. Essas somas das linhas são a marginal de uma das variáveis, e as somas das colunas são a marginal da outra. Marginalizar significa "integrar e fazer desaparecer a variável que não nos interessa".

Pegue aquela tabela de altura–peso de dupla entrada e suponha que você se importe apenas com a altura, ignorando o peso inteiramente. Você simplesmente soma cada linha da conjunta p(x, y) e anota o total na margem — esse total da linha é a frequência com que cada altura ocorre, não importa o peso. Ler apenas esses totais na margem dá a distribuição marginal de X, a única variável vista por conta própria.

Onde isso aparece no MLMarginalizar variáveis latentes é, ao mesmo tempo, o cálculo central e a principal dor de cabeça da modelagem generativa. A verossimilhança dos dados é p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz, uma integral sobre cada latente z possível. Essa integral é, em geral, intratável, e é precisamente por isso que os VAE otimizam um limite inferior tratável (o ELBO) em vez de calcularem a marginal…

▶ Distribuições Marginais

← Distribuições Conjuntas Distribuições Condicionais →