边缘分布

不确定性的数学

给定联合分布 p(x, y),假设你只关心 X,想忘掉 Y。你要做边缘化:对不想要的变量的所有取值,把联合分布求和(或积分)。剩下的就是单独 X 的边缘分布。

这个名字来自旧式概率表:你会把每一行加起来,并把总数写在边缘。这些行和是一个变量的边缘分布,列和是另一个变量的边缘分布。边缘化的意思就是“把你不想要的变量积分掉”。

拿出那张身高-体重双向表格,假设你只关心身高,完全忽略体重。你只需将联合分布 p(x, y) 的每一行相加,并在边缘处记下总和——该行的总和就是无论体重如何,每个身高出现的频率。只读取那些边缘总和就给出了 X 的边缘分布,即单独看待的那个变量。

在机器学习中的应用边缘化掉潜变量既是生成建模的核心计算,也是核心难题。数据似然是 p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz,这是对每个可能潜变量 z 的积分。这个积分通常不可解,这正是为什么 VAE 优化一个可处理的下界(ELBO),而不是直接计算边缘似然。
▶ 边缘分布
← 联合分布条件分布 →