Maksimum Olabilirlik Tahmini

Inference, estimation, and decision-making from data

Parametre θ için tek bir değer seçmek zorundaysan, en doğal kural şudur: fiilen gözlemlediğin veriyi en olası kılan θ'yı seç. Bu maksimum olabilirlik tahminidir (MLE), ML'deki neredeyse her modelin eğitiminin ardındaki ilke.

Bağımsız varsayılan x₁, …, xₙ verisi verildiğinde, bütün örneklemin olasılığı tek tek nokta olasılıklarının çarpımıdır. θ'nın bir fonksiyonu olarak bu çarpım olabilirliktir:

Birçok küçük olasılığı çarpmak sıfıra alttan taşar ve türevini almak zahmetlidir. Çözüm logaritma almaktır: bir çarpımın logaritması bir toplamdır, ve log artan olduğu için maksimuma getireni değiştirmez. Log-olabilirliği maksimize ederiz:

Bunun ML'deki yeriBir modeli eğitmek maksimum olabilirliktir. Çapraz entropi kaybını minimize etmek tam olarak etiketlerin log-olabilirliğini maksimize etmektir; çapraz entropi negatif log-olabilirliktir. Ortalama karesel hatayı minimize etmek, bir Gauss gürültü varsayımı altında MLE'dir. .backward() çağırıp optimize ediciyi adımladığında, yukarıdaki log-olabilirlik yüzeyine tırmanıyorsun, sadece milyonlarca…

▶ Maksimum Olabilirlik Tahmini

← Parametreler ve Tahminciler Yaygın Dağılımlar için MLE →