生成 vs 識別 — 統計学 · Mathematics for Machine Learning

分類器を構築するには根本的に2つの異なる方法があり、その分割は機械学習全体を貫く。識別モデルはクラス間の境界を直接学習する。生成モデルは各クラスがどうデータを生成するかを学習し、境界を副産物として導出する。

形式的に：識別モデルは条件付きp(y|x)を直接推定し、「これらの特徴が与えられた下で、どのラベルか？」に答える。生成モデルは同時p(x, y)を（しばしばp(x|y)とp(y)を通して）推定し、ベイズの規則を使ってp(y|x)を得る。

2人の美術学生を思い浮かべてください。1人は、毛皮、ひげ、耳がどのように組み合わさるかをマスターして、ゼロから猫を描くことを学びます。これが生成モデルであり、各クラスがそのデータをどのように生成するかを学習します。もう1人は何も描きませんが、あらゆる写真から犬と猫を見分けることに非常に長けています。これが識別モデルであり、クラス間の境界のみを学習します。画家は新しい猫を作成できますが、見分ける人はただ線を引くだけであり、多くの場合、こちらの方が鋭敏です。

機械学習における位置づけこの二分法はMLの巨大な部分を整理する。分類器（ロジスティック回帰、ほとんどのニューラルネット）は識別です：p(y|x)とそれ以上でない。VAEや拡散モデルは生成です：新しい画像を合成するのに十分なp(x)を学習する、識別器にはできないこと。ナイーブベイズ vs ロジスティック回帰が古典的な教科書のペアで；VAE vs 分類器がその現代のディープラーニングの反響です。