A matemática da incerteza
Dada uma conjunta p(x, y), suponha que só lhe interessa X e você quer esquecer Y. O que você faz é marginalizar: somar (ou integrar) a conjunta sobre todos os valores da variável que você não quer. O que sobra é a distribuição marginal de X por si só.
O nome vem das antigas tabelas de probabilidade: somava-se cada linha e escrevia-se o total na margem. Essas somas das linhas são a marginal de uma das variáveis, e as somas das colunas são a marginal da outra. Marginalizar significa "integrar e fazer desaparecer a variável que não nos interessa".
Pegue aquela tabela de altura–peso de dupla entrada e suponha que você se importe apenas com a altura, ignorando o peso inteiramente. Você simplesmente soma cada linha da conjunta p(x, y) e anota o total na margem — esse total da linha é a frequência com que cada altura ocorre, não importa o peso. Ler apenas esses totais na margem dá a distribuição marginal de X, a única variável vista por conta própria.