联合分布

不确定性的数学

到目前为止,每个随机变量都是单独生活的。但有趣的问题往往关于关系:身高和体重,图像和标签。联合分布 p(x, y) 给出每一对取值同时发生的概率。它完整描述了两个(或更多)变量如何一起表现。

对离散变量,可以想象一张网格:行是 X 的取值,列是 Y 的取值,每个单元格保存该组合的概率。所有单元格都非负,并且总和为 1——同样是概率公理,只是现在在二维中。对连续变量,它是密度 f(x, y),概率是二维曲面下的体积。

想象一张将人们按身高和体重同时排序的双向表格:一个单元格里是矮且轻,另一个单元格里是高且重,每个单元格中都有一个数字说明那种组合有多常见。配对的整个网格就是联合分布 p(x, y)——它描述了身高和体重组合在一起的情况,而不是一次描述一个。填满每个单元格,使它们非负且总和为 1,你就捕捉到了这两个特征如何共同变化的完整图景。

在机器学习中的应用监督学习是在建模输入和标签的联合分布 p(x, y),或其中的一部分。生成式模型学习完整联合 p(x, y),并能合成新数据;判别式模型只学习预测所需的条件分布 p(y | x)。生成式与判别式的全部区别,就在于你愿意建模联合分布的多少。
▶ 联合分布
← 多变量 Gaussian边缘分布 →