Çapraz Entropi

The mathematics of uncertainty

Diyelim ki gerçek dağılım p, ama sen sonuçları farklı bir model q kullanarak kodluyorsun. Çapraz entropi, gerçekte ödediğin ortalama şaşkınlıktır: şaşkınlık senin modelin q ile ölçülür, ancak olayların p altında gerçekte ne sıklıkta meydana geldiğine göre ortalanır:

Anlamlı iki parçaya ayrılır: gerçeğin kaçınılmaz entropisi, artı yanlış modeli kullanmanın cezası olan KL ıraksaması (sonraki ders):

H(p) veriyle sabitlendiğinden, modeline göre çapraz entropiyi minimize etmek, KL ıraksamasını minimize etmekle aynıdır ve q'yu p'ye doğru iter. Ayrıca çapraz entropi her zaman en az H(p) kadardır ve eşitlik yalnızca q = p olduğunda sağlanır.

Bunun ML'deki yeriNeredeyse herhangi bir sınıflandırıcıyı veya dil modelini açtığında son katman softmax'ı ve ardından çapraz entropi kaybını görürsün. Onu minimize etmek tam olarak maksimum olabilirlik kestirimidir: veri üzerinde toplanan −log q(gerçek), negatif log-olabilirliktir. Bir ağı bir sonraki token'ı tahmin etmesi için eğitmek, gerçek sonraki-token dağılımı ile modelin dağılımı arasındaki çapraz…
▶ Çapraz Entropi
← EntropiKL Iraksaması →