Estimação Bayesiana

Inferência, estimação e tomada de decisão a partir de dados

O MLE pergunta "qual único θ melhor explica os dados?". A estimação bayesiana faz uma pergunta mais rica: "dados os dados, qual é a minha crença completa sobre θ?". Em vez de um número, você obtém uma distribuição inteira, e pode incorporar aquilo que já sabia de antemão.

São três os ingredientes. A priori p(θ) é a sua crença antes de ver os dados. A verossimilhança p(x|θ) mede quão bem cada θ explica os dados (o mesmo objeto do MLE). A regra de Bayes os combina na posteriori p(θ|x):

Leia assim: crença a posteriori = quão bem θ explica os dados, ponderado por quão plausível θ era de início. Mais dados fazem a verossimilhança dominar e dissolvem a influência da priori.

Onde isso aparece no MLA regularização é essa ideia em uso cotidiano. Acrescentar uma penalidade L2 λ‖β‖² à perda é exatamente estimação MAP com uma priori gaussiana sobre os pesos. A priori diz "pesos próximos de zero são mais plausíveis". Acrescentar uma penalidade L1 corresponde a uma priori de Laplace, que prefere pesos esparsos. O weight decay não é um truque; é uma priori bayesiana com outro nome.
▶ Estimação Bayesiana
← MLE para Distribuições ComunsIntervalos de Confiança →