교차 엔트로피 — 확률 · Mathematics for Machine Learning

진실은 분포 p인데, 결과를 다른 모델 q로 부호화한다고 해 봅시다. 교차 엔트로피는 그때 실제로 치르게 되는 평균 놀라움입니다. 놀라움은 내 모델 q로 재되, 사건이 실제로 p 아래에서 얼마나 자주 일어나는지로 평균을 냅니다:

이것은 의미 있는 두 조각으로 나뉩니다. 피할 수 없는 진실의 엔트로피, 그리고 잘못된 모델을 쓴 데 대한 벌점인 KL 발산(다음 레슨)입니다:

H(p)는 데이터에 의해 고정되어 있으므로, 교차 엔트로피를 최소화하는 것은 KL 발산을 최소화하는 것과 같으며, 이는 q를 p 쪽으로 몰아갑니다. 또한 교차 엔트로피는 항상 적어도 H(p) 이상이며, 등호는 q = p일 때만 성립합니다.

머신러닝에서의 위치거의 모든 분류기나 언어 모델을 열어 보면, 마지막 층은 softmax 다음에 교차 엔트로피 손실이 옵니다. 이를 최소화하는 것은 정확히 최대 가능도 추정입니다. 데이터 전체에 걸쳐 −log q(진짜)를 합한 것이 곧 음의 로그 가능도이기 때문입니다. 네트워크가 다음 토큰을 예측하도록 훈련하는 것은, 진짜 다음 토큰 분포와 모델의 분포 사이의 교차 엔트로피를 최소화하는 일입니다.