Entropia Cruzada

A matemática da incerteza

Suponha que a verdade é a distribuição p, mas que você codifica os resultados usando um modelo diferente q. A entropia cruzada é a surpresa média que você realmente paga: a surpresa medida pelo seu modelo q, mas ponderada pela frequência com que os eventos efetivamente ocorrem sob p:

Decompõe-se em duas parcelas com significado próprio: a entropia inevitável da verdade, mais uma penalização por usar o modelo errado, que é a divergência KL (próxima lição):

Como H(p) está fixada pelos dados, minimizar a entropia cruzada em relação ao seu modelo é idêntico a minimizar a divergência KL, aproximando q de p. E a entropia cruzada é sempre, no mínimo, H(p), com igualdade apenas quando q = p.

Onde isso aparece no MLAbra praticamente qualquer classificador ou modelo de linguagem e a camada final é uma softmax seguida da perda de entropia cruzada. Minimizá-la é exatamente estimação por máxima verossimilhança: −log q(verdadeiro) somado sobre os dados é a log-verossimilhança negativa. Treinar uma rede para prever o token seguinte é minimizar a entropia cruzada entre a distribuição verdadeira do token seguinte e…
▶ Entropia Cruzada
← EntropiaDivergência KL →