生成式 vs 判别式

从数据中进行推断、估计和决策

构建分类器有两种根本不同的方式,而这种区分贯穿了整个机器学习领域。判别式模型直接学习类别之间的边界。生成式模型则学习每个类别是如何生成其数据的,并把边界作为副产品推导出来。

形式化地说:判别式模型直接估计条件概率 p(y|x),回答的是"给定这些特征,是哪个标签?"生成式模型估计联合概率 p(x, y)(通常通过 p(x|y) 和 p(y)),然后用贝叶斯法则得到 p(y|x)。

想象两名艺术系的学生。一个从零开始学习画猫,掌握皮毛、胡须和耳朵是如何组合在一起的:这就是一个生成式模型,它学习每个类别是如何生成其数据的。另一个从未画过任何东西,但却非常擅长在任何照片中识别出猫与狗:这就是一个判别式模型,它只学习类别之间的边界。这位画家可以创作出新的猫;而那位识别者只划定界线,且在这方面往往更加敏锐。

在机器学习中的应用这种二分法组织了机器学习中的大片领域。分类器(逻辑回归、大多数神经网络)是判别式的:只有 p(y|x),仅此而已。VAE 或扩散模型是生成式的:它把 p(x) 学得足够好,从而能合成新图像——这是判别器做不到的。朴素贝叶斯 vs 逻辑回归是经典的教科书配对;VAE vs 分类器则是它在现代深度学习中的回响。
▶ 生成式 vs 判别式
← 机器学习的统计检验期望最大化(EM) →