Bayessche Schätzung

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Die MLE fragt: "Welches einzelne θ erklärt die Daten am besten?" Die Bayessche Schätzung stellt eine umfassendere Frage: "Wie sieht angesichts der Daten meine gesamte Überzeugung über θ aus?" Statt einer einzelnen Zahl erhältst du eine ganze Verteilung und kannst dein Vorwissen einfließen lassen.

Drei Bestandteile. Die A-priori-Verteilung p(θ) ist deine Überzeugung, bevor du die Daten gesehen hast. Die Likelihood p(x|θ) gibt an, wie gut jedes θ die Daten erklärt (dasselbe Objekt wie bei der MLE). Der Satz von Bayes kombiniert sie zur A-posteriori-Verteilung p(θ|x):

Lies es so: A-posteriori-Überzeugung = wie gut θ die Daten erklärt, gewichtet damit, wie plausibel θ von Anfang an war. Mehr Daten lassen die Likelihood dominieren und waschen das Vorwissen aus.

Wo das im ML vorkommtRegularisierung ist genau diese Idee im Alltag. Dem Verlust eine L2-Strafe λ‖β‖² hinzuzufügen entspricht exakt einer MAP-Schätzung mit einer gaußschen A-priori-Verteilung auf den Gewichten. Diese A-priori-Verteilung sagt: "Gewichte nahe null sind plausibler." Eine L1-Strafe entspricht einer Laplace-A-priori-Verteilung, die dünn besetzte Gewichte bevorzugt. Weight Decay ist kein Trick; es ist eine…

▶ Bayessche Schätzung

← MLE für gängige Verteilungen Konfidenzintervalle →