Cross-Entropy

Matematika ketidakpastian

Misalkan kebenaran adalah distribusi p, tapi Anda mengode hasil menggunakan model berbeda q. Cross-entropy adalah kejutan rata-rata yang sebenarnya Anda bayar: kejutan diukur oleh model q, tapi dirata-rata atas seberapa sering kejadian benar-benar terjadi di bawah p:

Terpecah menjadi dua bagian bermakna: entropi kebenaran yang tak terhindarkan, plus penalti untuk menggunakan model salah, divergensi KL (pelajaran berikut):

Karena H(p) tetap oleh data, meminimalkan cross-entropy atas model identik dengan meminimalkan divergensi KL, mendorong q menuju p. Dan cross-entropy selalu setidaknya H(p), dengan kesetaraan hanya saat q = p.

Di mana ini berlaku dalam MLBuka hampir semua klasifier atau model bahasa dan lapisan akhir adalah softmax diikuti loss cross-entropy. Meminimalkannya persis estimasi maksimum-likelihood: −log q(sejati) dijumlah atas data adalah negatif log-likelihood. Melatih jaringan untuk memprediksi token berikutnya adalah meminimalkan cross-entropy antara distribusi token-berikutnya sejati dan milik model.
▶ Cross-Entropy
← EntropiDivergensi KL →