मानें सत्य वितरण p, लेकिन आप परिणाम कूटित एक अलग मॉडल q से। क्रॉस-एन्ट्रॉपी वह औसत आश्चर्यकता जो आप वास्तव में देते: आश्चर्यकता आपके मॉडल q से मापी, लेकिन p के अनुसार घटनाएँ जितनी बार सच में घटित उस पर औसत:
यह दो सार्थक टुकड़ों में: सत्य की अपरिहार्य एन्ट्रॉपी, घटा गलत मॉडल का दंड, KL विचलन (अगला पाठ):
क्योंकि H(p) डेटा से निश्चित, क्रॉस-एन्ट्रॉपी न्यूनतम करना KL विचलन न्यूनतम करने के समान, q को p की ओर। और क्रॉस-एन्ट्रॉपी हमेशा कम से कम H(p), समानता केवल जब q = p।
ML में इसका स्थानलगभग कोई भी वर्गीकारक या भाषा मॉडल खोलें और अंतिम पर्त softmax और फिर क्रॉस-एन्ट्रॉपी हानि। इसे न्यूनतम करना ठीक अधिकतम-संभावना अनुमान: −log q(true) डेटा पर जोड़ा ऋणात्मक लॉग-संभावना। एक नेटवर्क को अगला टोकन भविष्यवाणी प्रशिक्षण सच्चे अगला-टोकन वितरण और मॉडल के बीच क्रॉस-एन्ट्रॉपी न्यूनतम।