Cross-Entropia

La matematica dell'incertezza

Supponi che la verità sia la distribuzione p, ma codifichi gli esiti usando un modello diverso q. La cross-entropia è la sorpresa media che paghi realmente: sorpresa misurata dal tuo modello q, ma mediata su quanto spesso gli eventi occorrono davvero sotto p:

Si divide in due pezzi significativi: l'entropia inevitabile della verità, più una penalità per l'uso del modello sbagliato, la divergenza KL (prossima lezione):

Poiché H(p) è fissata dai dati, minimizzare la cross-entropia rispetto al tuo modello equivale a minimizzare la divergenza KL, spingendo q verso p. E la cross-entropia è sempre almeno pari a H(p), con uguaglianza solo quando q = p.

Dove si trova nel MLApri quasi qualsiasi classificatore o modello linguistico e lo strato finale è softmax seguito dalla loss cross-entropia. Minimizzarla è esattamente la stima di massima verosimiglianza: −log q(vero) sommato sui dati è la log-verosimiglianza negativa. Addestrare una rete a predire il token successivo è minimizzare la cross-entropia tra la distribuzione vera del token successivo e quella del…
▶ Cross-Entropia
← EntropiaDivergenza KL →