Извод, оценка и вземане на решения от данни
Ако трябва да изберете една-единствена стойност за параметъра θ, най-естественото правило е следното: изберете онова θ, което прави реално наблюдаваните данни най-вероятни. Това е методът на оценка по максимална правдоподобност (MLE) – принципът, стоящ зад обучението на почти всеки модел в машинното обучение.
За данни x₁, …, xₙ, които се приемат за независими, вероятността за цялата извадка е произведение от вероятностите за всяка отделна точка. Разглеждано като функция на θ, това произведение се нарича функция на правдоподобност:
Умножаването на много малки вероятности води до числено зануляване (underflow) и е неудобно за диференциране. Решението е да вземете логаритъм (log): логаритъмът от произведение е сума, а тъй като логаритмичната функция е строго растяща, тя не променя позицията на максимума. Затова ние максимизираме логаритмичната правдоподобност (log-likelihood):