Entropia Cruzada

A matemática da incerteza

Supõe que a verdade é a distribuição p, mas que codificas os resultados usando um modelo diferente q. A entropia cruzada é a surpresa média que realmente pagas: a surpresa medida pelo teu modelo q, mas ponderada pela frequência com que os eventos efetivamente ocorrem sob p:

Decompõe-se em duas parcelas com significado próprio: a entropia inevitável da verdade, mais uma penalização por usar o modelo errado, que é a divergência KL (próxima lição):

Como H(p) está fixada pelos dados, minimizar a entropia cruzada em relação ao teu modelo é idêntico a minimizar a divergência KL, aproximando q de p. E a entropia cruzada é sempre, no mínimo, H(p), com igualdade apenas quando q = p.

Onde isto aparece no MLAbre praticamente qualquer classificador ou modelo de linguagem e a camada final é uma softmax seguida da perda de entropia cruzada. Minimizá-la é exatamente estimação por máxima verosimilhança: −log q(verdadeiro) somado sobre os dados é a log-verosimilhança negativa. Treinar uma rede para prever o token seguinte é minimizar a entropia cruzada entre a distribuição verdadeira do token seguinte e a…
▶ Entropia Cruzada
← EntropiaDivergência KL →