Estimação Bayesiana

Inferência, estimação e tomada de decisão a partir de dados

O MLE pergunta "qual único θ melhor explica os dados?". A estimação bayesiana faz uma pergunta mais rica: "dados os dados, qual é a minha crença completa sobre θ?". Em vez de um número, obténs uma distribuição inteira, e podes incorporar aquilo que já sabias de antemão.

São três os ingredientes. A priori p(θ) é a tua crença antes de veres os dados. A verosimilhança p(x|θ) mede quão bem cada θ explica os dados (o mesmo objeto do MLE). A regra de Bayes combina-os na posteriori p(θ|x):

Lê assim: crença a posteriori = quão bem θ explica os dados, ponderado por quão plausível θ era de início. Mais dados fazem a verosimilhança dominar e dissolvem a influência da priori.

Onde isto aparece no MLA regularização é essa ideia em uso quotidiano. Acrescentar uma penalização L2 λ‖β‖² à perda é exatamente estimação MAP com uma priori gaussiana sobre os pesos. A priori diz "pesos próximos de zero são mais plausíveis". Acrescentar uma penalização L1 corresponde a uma priori de Laplace, que prefere pesos esparsos. O weight decay não é um truque; é uma priori bayesiana com outro nome.
▶ Estimação Bayesiana
← MLE para Distribuições ComunsIntervalos de Confiança →