Entropía Cruzada

Las matemáticas de la incertidumbre

Supongamos que la verdad es una distribución p, pero codificas los resultados usando un modelo diferente q. La entropía cruzada es el promedio de sorpresa real que pagas: la sorpresa medida por tu modelo q, pero promediada sobre cuán frecuentemente ocurren los eventos realmente bajo p:

Se divide en dos piezas significativas: la entropía inevitable de la verdad, más una penalización por usar el modelo incorrecto, la divergencia KL (próximo lección):

Ya que H(p) está fijado por los datos, minimizar la entropía cruzada sobre tu modelo es idéntico a minimizar la divergencia KL, llevando q hacia p. Y la entropía cruzada siempre es al menos H(p), con igualdad sólo cuando q = p.

Dónde aparece en el MLAbre casi cualquier clasificador o modelo de lenguaje y la capa final es softmax seguida de entropía cruzada loss. Minimizarlo es exactamente estimación máxima verosimilitud: −log q(true) sumado sobre los datos es la negativa del logaritmo de la verosimilitud. Entrenar una red para predecir el siguiente token es minimizar la entropía cruzada entre la distribución verdadera del siguiente token y…

▶ Entropía Cruzada

← Entropía Divergencia de Kullback-Leibler →