Wnioskowanie, estymacja i podejmowanie decyzji z danych
Jeśli musisz wybrać jedną, punktową wartość parametru θ, najbardziej naturalna reguła brzmi: wybierz takie θ, dla którego prawdopodobieństwo wygenerowania faktycznie zaobserwowanych przez ciebie danych jest największe. Podejście to nosi nazwę estymacji największej wiarygodności (MLE) i stanowi fundamentalną zasadę stojącą za uczeniem ogromnej większości modeli uczenia maszynowego.
Dla zmiennych x₁, …, xₙ, przy założeniu ich niezależności, prawdopodobieństwo całej zebranej próby jest iloczynem prawdopodobieństw poszczególnych punktów danych. Iloczyn ten, jako funkcja parametru θ, definiuje funkcję wiarygodności:
Mnożenie przez siebie bardzo wielu małych prawdopodobieństw prowadzi jednak do niedomiaru numerycznego (tzw. underflow) i dążenia do zera, a z technicznego punktu widzenia jest niezwykle uciążliwe przy różniczkowaniu. Rozwiązaniem tego problemu jest zastosowanie logarytmu naturalnego: logarytm iloczynu staje się po prostu sumą logarytmów, a ponieważ logarytm jest funkcją rosnącą, nie przesuwa on położenia maksimum. W praktyce maksymalizujemy więc tzw. logarytm funkcji wiarygodności (log-wiarygodność):