Inferenz, Schätzung und Entscheidungsfindung aus Daten
Wenn Sie einen einzelnen Wert für den Parameter θ wählen müssen, lautet die natürlichste Regel: Wählen Sie das θ, das die tatsächlich beobachteten Daten am wahrscheinlichsten macht. Das ist die Maximum-Likelihood-Schätzung (MLE), das Prinzip hinter dem Training fast jedes Modells im ML.
Gegeben seien Daten x₁, …, xₙ, die als unabhängig angenommen werden. Die Wahrscheinlichkeit der gesamten Stichprobe ist das Produkt der Einzelwahrscheinlichkeiten je Punkt. Als Funktion von θ ist dieses Produkt die Likelihood:
Das Multiplizieren vieler kleiner Wahrscheinlichkeiten läuft numerisch zu null über und ist umständlich abzuleiten. Die Lösung besteht darin, den Logarithmus zu nehmen: Der Logarithmus eines Produkts ist eine Summe, und der Logarithmus ist streng monoton steigend, sodass er die Maximalstelle nicht verschiebt. Wir maximieren die Log-Likelihood: