クロスエントロピー
不確実性の数学
真実が分布pだが、異なるモデルqで結果を符号化するとする。クロスエントロピーは実際に払う平均の驚きです:モデルqで測った驚きを、pの下で事象が実際に起きる頻度で平均する:
これは2つの意味のあるピースに分割される:真実の避けられないエントロピーと、間違ったモデルを使うことのペナルティ、KLダイバージェンス(次のレッスン)です:
H(p)はデータで固定なので、クロスエントロピーをモデルで最小化することはKLダイバージェンスを最小化することと同一で、qをpに向ける。そしてクロスエントロピーは常に少なくともH(p)で、q = pのときのみ等号が成り立つ。
機械学習における位置づけほぼすべての分類器や言語モデルを開くと最終層はsoftmaxに続いてクロスエントロピー損失です。それを最小化することはちょうど最尤推定です:データにわたる−log q(真)の和が負の対数尤度です。ネットワークに次トークンを予測させることは真の次トークン分布とモデルの間のクロスエントロピーを最小化すること。
▶ クロスエントロピー