边缘分布

不确定性的数学

给定联合分布 p(x, y)，假设你只关心 X，想忘掉 Y。你要做边缘化：对不想要的变量的所有取值，把联合分布求和（或积分）。剩下的就是单独 X 的边缘分布。

这个名字来自旧式概率表：你会把每一行加起来，并把总数写在边缘。这些行和是一个变量的边缘分布，列和是另一个变量的边缘分布。边缘化的意思就是“把你不想要的变量积分掉”。

拿出那张身高-体重双向表格，假设你只关心身高，完全忽略体重。你只需将联合分布 p(x, y) 的每一行相加，并在边缘处记下总和——该行的总和就是无论体重如何，每个身高出现的频率。只读取那些边缘总和就给出了 X 的边缘分布，即单独看待的那个变量。

在机器学习中的应用边缘化掉潜变量既是生成建模的核心计算，也是核心难题。数据似然是 p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz，这是对每个可能潜变量 z 的积分。这个积分通常不可解，这正是为什么 VAE 优化一个可处理的下界（ELBO），而不是直接计算边缘似然。

▶ 边缘分布

← 联合分布条件分布 →