Кръстосана ентропия — Вероятност

Да предположим, че истинското разпределение е p, но вие кодирате резултатите чрез различен модел q. Кръстосаната ентропия е средната изненада, която реално изпитвате: изненадата е измерена от вашия модел q, но е осреднена спрямо това колко често събитията реално се случват според p:

Тя се разлага на две смислени части: неизбежната ентропия на истината плюс наказание за използване на грешен модел, наречено KL дивергенция (Kullback-Leibler divergence) (следващият урок):

Тъй като H(p) е фиксирана от данните, минимизирането на кръстосаната ентропия на вашия модел е еквивалентно на минимизиране на KL дивергенцията, което приближава q към p. Кръстосаната ентропия винаги е поне H(p), като равенство има само когато q = p.

Къде се използва това в MLОтворете почти всеки класификатор или езиков модел и ще видите, че последният слой е softmax, последван от cross-entropy (кръстосана ентропия) функция на загубата. Нейното минимизиране на практика е оценка по метода на максималното правдоподобие (Maximum Likelihood Estimation): −log q(истината), сумирано върху данните, е отрицателното логаритмично правдоподобие (negative log-likelihood).…