Maximum Likelihood Schätzung

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Wenn Sie einen einzelnen Wert für den Parameter θ wählen müssen, lautet die natürlichste Regel: Wählen Sie das θ, das die tatsächlich beobachteten Daten am wahrscheinlichsten macht. Das ist die Maximum-Likelihood-Schätzung (MLE), das Prinzip hinter dem Training fast jedes Modells im ML.

Gegeben seien Daten x₁, …, xₙ, die als unabhängig angenommen werden. Die Wahrscheinlichkeit der gesamten Stichprobe ist das Produkt der Einzelwahrscheinlichkeiten je Punkt. Als Funktion von θ ist dieses Produkt die Likelihood:

Das Multiplizieren vieler kleiner Wahrscheinlichkeiten läuft numerisch zu null über und ist umständlich abzuleiten. Die Lösung besteht darin, den Logarithmus zu nehmen: Der Logarithmus eines Produkts ist eine Summe, und der Logarithmus ist streng monoton steigend, sodass er die Maximalstelle nicht verschiebt. Wir maximieren die Log-Likelihood:

Wo das im ML vorkommtDas Training eines Modells ist Maximum-Likelihood-Schätzung. Den Kreuzentropie-Verlust zu minimieren entspricht genau dem Maximieren der Log-Likelihood der Labels; die Kreuzentropie ist die negative Log-Likelihood. Den mittleren quadratischen Fehler zu minimieren ist MLE unter der Annahme gaußschen Rauschens. Wenn Sie .backward() aufrufen und den Optimierer einen Schritt machen lassen, erklimmen…

▶ Maximum Likelihood Schätzung

← Parameter & Schätzer MLE für gängige Verteilungen →