データからの推論、推定、意思決定
分類器を構築するには根本的に2つの異なる方法があり、その分割は機械学習全体を貫く。識別モデルはクラス間の境界を直接学習する。生成モデルは各クラスがどうデータを生成するかを学習し、境界を副産物として導出する。
形式的に:識別モデルは条件付きp(y|x)を直接推定し、「これらの特徴が与えられた下で、どのラベルか?」に答える。生成モデルは同時p(x, y)を(しばしばp(x|y)とp(y)を通して)推定し、ベイズの規則を使ってp(y|x)を得る。
2人の美術学生を思い浮かべてください。1人は、毛皮、ひげ、耳がどのように組み合わさるかをマスターして、ゼロから猫を描くことを学びます。これが生成モデルであり、各クラスがそのデータをどのように生成するかを学習します。もう1人は何も描きませんが、あらゆる写真から犬と猫を見分けることに非常に長けています。これが識別モデルであり、クラス間の境界のみを学習します。画家は新しい猫を作成できますが、見分ける人はただ線を引くだけであり、多くの場合、こちらの方が鋭敏です。