Entropia krzyżowa

Matematyka niepewności

Wyobraź sobie, że prawdziwym modelem jest faktyczny rozkład postaci p, a Ty dla kodowania używasz modelu wyliczonego przez q. Entropia krzyżowa obrazuje wyliczone z niego „zaskoczenie”, za które będziesz musiał zapłacić na samym końcu. Szok wyliczony według twojego subiektywnego zapisu w oparciu o q zderzy się tam bowiem z obiektywną naturą prawdopodobieństwa zjawisk ujętą przez bezwzględne reguły naturalnego p:

Rozkłada się na dwa znaczące kawałki: nieuniknioną entropię prawdy plus karę za użycie złego modelu, dywergencję KL (następna lekcja):

Since H(p) is fixed by the data, minimizing cross-entropy over your model is identical to minimizing the KL divergence, driving q toward p. And cross-entropy is always at least H(p), with equality only when q = p.

Gdzie to występuje w MLOtwórz niemal dowolny klasyfikator lub model językowy, a ostatnia warstwa to softmax, po którym następuje strata entropii krzyżowej. Jej minimalizacja to dokładnie estymacja maksymalnej wiarygodności: −log q(true) zsumowane po danych to ujemna log-wiarygodność. Trenowanie sieci do przewidywania następnego tokena to minimalizacja entropii krzyżowej między prawdziwym rozkładem następnego tokena a…
▶ Entropia krzyżowa
← EntropiaDywergencja KL →