从数据中进行推断、估计和决策
构建分类器有两种根本不同的方式,而这种区分贯穿了整个机器学习领域。判别式模型直接学习类别之间的边界。生成式模型则学习每个类别是如何生成其数据的,并把边界作为副产品推导出来。
形式化地说:判别式模型直接估计条件概率 p(y|x),回答的是"给定这些特征,是哪个标签?"生成式模型估计联合概率 p(x, y)(通常通过 p(x|y) 和 p(y)),然后用贝叶斯法则得到 p(y|x)。
想象两名艺术系的学生。一个从零开始学习画猫,掌握皮毛、胡须和耳朵是如何组合在一起的:这就是一个生成式模型,它学习每个类别是如何生成其数据的。另一个从未画过任何东西,但却非常擅长在任何照片中识别出猫与狗:这就是一个判别式模型,它只学习类别之间的边界。这位画家可以创作出新的猫;而那位识别者只划定界线,且在这方面往往更加敏锐。