Оценка по максимална правдоподобност — Статистика

Ако трябва да изберете една-единствена стойност за параметъра θ, най-естественото правило е следното: изберете онова θ, което прави реално наблюдаваните данни най-вероятни. Това е методът на оценка по максимална правдоподобност (MLE) – принципът, стоящ зад обучението на почти всеки модел в машинното обучение.

За данни x₁, …, xₙ, които се приемат за независими, вероятността за цялата извадка е произведение от вероятностите за всяка отделна точка. Разглеждано като функция на θ, това произведение се нарича функция на правдоподобност:

Умножаването на много малки вероятности води до числено зануляване (underflow) и е неудобно за диференциране. Решението е да вземете логаритъм (log): логаритъмът от произведение е сума, а тъй като логаритмичната функция е строго растяща, тя не променя позицията на максимума. Затова ние максимизираме логаритмичната правдоподобност (log-likelihood):

Къде се използва това в MLОбучението на модел се основава на максималната правдоподобност. Минимизирането на функцията на загуба кръстосана ентропия (cross-entropy) е точно еквивалентно на максимизиране на логаритмичната правдоподобност на етикетите; кръстосаната ентропия е просто отрицателната логаритмична правдоподобност. Минимизирането на средната квадратична грешка пък е MLE при допускане за Гаусов шум. Когато…