Estymacja maksymalnej wiarygodności

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Jeśli musisz wybrać jedną, punktową wartość parametru θ, najbardziej naturalna reguła brzmi: wybierz takie θ, dla którego prawdopodobieństwo wygenerowania faktycznie zaobserwowanych przez ciebie danych jest największe. Podejście to nosi nazwę estymacji największej wiarygodności (MLE) i stanowi fundamentalną zasadę stojącą za uczeniem ogromnej większości modeli uczenia maszynowego.

Dla zmiennych x₁, …, xₙ, przy założeniu ich niezależności, prawdopodobieństwo całej zebranej próby jest iloczynem prawdopodobieństw poszczególnych punktów danych. Iloczyn ten, jako funkcja parametru θ, definiuje funkcję wiarygodności:

Mnożenie przez siebie bardzo wielu małych prawdopodobieństw prowadzi jednak do niedomiaru numerycznego (tzw. underflow) i dążenia do zera, a z technicznego punktu widzenia jest niezwykle uciążliwe przy różniczkowaniu. Rozwiązaniem tego problemu jest zastosowanie logarytmu naturalnego: logarytm iloczynu staje się po prostu sumą logarytmów, a ponieważ logarytm jest funkcją rosnącą, nie przesuwa on położenia maksimum. W praktyce maksymalizujemy więc tzw. logarytm funkcji wiarygodności (log-wiarygodność):

Gdzie to występuje w MLTrenowanie modelu to w gruncie rzeczy optymalizacja log-wiarygodności. Minimalizacja entropii krzyżowej (cross-entropy loss) z matematycznego punktu widzenia jest wprost maksymalizacją log-wiarygodności poprawnych etykiet; entropia to po prostu log-wiarygodność ze znakiem minus. Z kolei optymalizacja błędu średniokwadratowego (MSE) jest dokładnym odpowiednikiem procedury MLE przy założeniu…

▶ Estymacja maksymalnej wiarygodności

← Parametry i estymatory MLE dla typowych rozkładów →