联合分布

不确定性的数学

到目前为止，每个随机变量都是单独生活的。但有趣的问题往往关于关系：身高和体重，图像和标签。联合分布 p(x, y) 给出每一对取值同时发生的概率。它完整描述了两个（或更多）变量如何一起表现。

对离散变量，可以想象一张网格：行是 X 的取值，列是 Y 的取值，每个单元格保存该组合的概率。所有单元格都非负，并且总和为 1——同样是概率公理，只是现在在二维中。对连续变量，它是密度 f(x, y)，概率是二维曲面下的体积。

想象一张将人们按身高和体重同时排序的双向表格：一个单元格里是矮且轻，另一个单元格里是高且重，每个单元格中都有一个数字说明那种组合有多常见。配对的整个网格就是联合分布 p(x, y)——它描述了身高和体重组合在一起的情况，而不是一次描述一个。填满每个单元格，使它们非负且总和为 1，你就捕捉到了这两个特征如何共同变化的完整图景。

在机器学习中的应用监督学习是在建模输入和标签的联合分布 p(x, y)，或其中的一部分。生成式模型学习完整联合 p(x, y)，并能合成新数据；判别式模型只学习预测所需的条件分布 p(y | x)。生成式与判别式的全部区别，就在于你愿意建模联合分布的多少。

▶ 联合分布

← 多变量 Gaussian 边缘分布 →