Kruisentropie

De wiskunde van onzekerheid

Stel dat de waarheid verdeling p is, maar je codeert uitkomsten met een ander model q. Kruisentropie is de gemiddelde verrassing die je daadwerkelijk betaalt: verrassing gemeten door jouw model q, maar gemiddeld over hoe vaak gebeurtenissen werkelijk optreden onder p:

Het splitst in twee betekenisvolle stukken: de onvermijdelijke entropie van de waarheid, plus een straf voor het gebruik van het verkeerde model, de KL-divergentie (volgende les):

Omdat H(p) vastligt door de data, is kruisentropie minimaliseren over jouw model identiek aan de KL-divergentie minimaliseren, wat q naar p drijft. En kruisentropie is altijd ten minste H(p), met gelijkheid alleen wanneer q = p.

Waar dit voorkomt in MLOpen vrijwel elk classificatie- of taalmodel en de laatste laag is softmax gevolgd door kruisentropieverlies. Dit minimaliseren is precies maximum-aannemelijkheidsschatting: −log q(waar) gesommeerd over de data is de negatieve log-aannemelijkheid. Een netwerk trainen om het volgende token te voorspellen is kruisentropie minimaliseren tussen de ware volgende-token-verdeling en die van het model.
▶ Kruisentropie
← EntropieKL-divergentie →