Маргинальные распределения — Вероятность

Имея совместное p(x, y), допустим, вас волнует только X и вы хотите забыть Y. Вы маргинализуете: суммируете (или интегрируете) совместное по всем значениям ненужной переменной. Остаётся маргинальное распределение X.

Название из старых таблиц вероятностей: складывали каждую строку и писали итог на полях. Суммы строк — маргинал одной переменной, суммы столбцов — другой. Маргинализовать — «проинтегрировать ненужную переменную».

Возьмите эту двумерную таблицу рост-вес и предположите, что вас интересует только рост, полностью игнорируя вес. Вы просто складываете каждую строку совместного распределения p(x, y) и записываете итог на полях — этот итог по строке показывает, как часто встречается каждый рост, независимо от веса. Чтение только этих итогов на полях дает маргинальное распределение переменной X, взятой самой по себе.

Где это встречается в MLМаргинализация латентных переменных — и центральное вычисление, и центральная головная боль генеративного моделирования. Правдоподобие данных p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz, интеграл по каждому возможному латентному z. Этот интеграл обычно труднорешаем, поэтому VAE оптимизируют tractable нижнюю границу (ELBO) вместо прямого вычисления маргинала.