Matematyka niepewności
Wyobraź sobie, że prawdziwym modelem jest faktyczny rozkład postaci p, a Ty dla kodowania używasz modelu wyliczonego przez q. Entropia krzyżowa obrazuje wyliczone z niego „zaskoczenie”, za które będziesz musiał zapłacić na samym końcu. Szok wyliczony według twojego subiektywnego zapisu w oparciu o q zderzy się tam bowiem z obiektywną naturą prawdopodobieństwa zjawisk ujętą przez bezwzględne reguły naturalnego p:
Rozkłada się na dwa znaczące kawałki: nieuniknioną entropię prawdy plus karę za użycie złego modelu, dywergencję KL (następna lekcja):
Since H(p) is fixed by the data, minimizing cross-entropy over your model is identical to minimizing the KL divergence, driving q toward p. And cross-entropy is always at least H(p), with equality only when q = p.