KLダイバージェンス

不確実性の数学

KLダイバージェンスは一方の分布qがもう一方のpからどれだけ離れているかを測る：現実pを間違った分布qでモデル化することで払う余分の驚きです。クロスエントロピーの中のギャップです：

2つの事実がこれをMLの主力「距離」にする。ギブズの不等式により常に≥ 0で、ゼロになるのはちょうどq = pのとき。だからKLを0に向けることはモデルを真実に完全に一致させることを意味する。

KLは対称でない：KL(p‖q) ≠ KL(q‖p)が一般に成り立ち、三角不等式に違反する。非対称は意味があり、2つの方向が異なる失敗を報酬するからです。KL(p‖q)はpが大きいところでqが小さいことを重く罰する（「モードカバー」）；KL(q‖p)はpが質量を持たないところにqが質量を広げることを罰する（「モードシーク」）。

機械学習における位置づけVAEのELBOにはエンコーダの潜在分布を事前N(0, I)に向けるKL項があり、潜在空間を良好に保つ正則化です。PPO/TRPOのようなRL手法は各ポリシー更新をKL「信頼領域」で制約し、新しいポリシーが遠くに飛びすぎないようにする。知識蒸留は大きな教師と小さな生徒の出力分布間のKLを最小化する。

▶ KLダイバージェンス

← クロスエントロピー相互情報量 →