Estimation Bayésienne

Inférence, estimation et prise de décision à partir des données

Le MLE demande « quel θ unique explique le mieux les données ? » L'estimation bayésienne pose une question plus riche : « sachant les données, quelle est ma croyance complète sur θ ? » Au lieu d'un nombre, vous obtenez toute une distribution, et vous pouvez y intégrer ce que vous saviez déjà.

Trois ingrédients. L'a priori p(θ) est votre croyance avant de voir les données. La vraisemblance p(x|θ) est à quel point chaque θ explique les données (le même objet qu'en MLE). La règle de Bayes les combine en l'a posteriori p(θ|x) :

Lisez-la comme : croyance a posteriori = à quel point θ explique les données, pondérée par à quel point θ était plausible au départ. Plus de données fait dominer la vraisemblance et lave l'a priori.

Où cela apparaît en MLLa régularisation est cette idée au quotidien. Ajouter une pénalité L2 λ‖β‖² à la loss est exactement l'estimation MAP avec un a priori gaussien sur les poids. L'a priori dit « les poids proches de zéro sont plus plausibles. » Ajouter une pénalité L1 correspond à un a priori de Laplace, qui préfère les poids parcimonieux. Le weight decay n'est pas une astuce ; c'est un a priori bayésien sous un…
▶ Estimation Bayésienne
← MLE pour Distributions CourantesIntervalles de Confiance →