La matematica dell'incertezza
Supponi che la verità sia la distribuzione p, ma codifichi gli esiti usando un modello diverso q. La cross-entropia è la sorpresa media che paghi realmente: sorpresa misurata dal tuo modello q, ma mediata su quanto spesso gli eventi occorrono davvero sotto p:
Si divide in due pezzi significativi: l'entropia inevitabile della verità, più una penalità per l'uso del modello sbagliato, la divergenza KL (prossima lezione):
Poiché H(p) è fissata dai dati, minimizzare la cross-entropia rispetto al tuo modello equivale a minimizzare la divergenza KL, spingendo q verso p. E la cross-entropia è sempre almeno pari a H(p), con uguaglianza solo quando q = p.