Stima Bayesiana

Inferenza, stima e processo decisionale dai dati

La MLE chiede "quale singolo θ spiega meglio i dati?". La stima bayesiana pone una domanda più ricca: "dati i dati, qual è la mia credenza completa su θ?". Invece di un numero, ottieni un'intera distribuzione, e puoi incorporare ciò che già sapevi in partenza.

Gli ingredienti sono tre. La distribuzione a priori p(θ) è la tua credenza prima di vedere i dati. La verosimiglianza p(x|θ) è quanto bene ciascun θ spiega i dati (lo stesso oggetto della MLE). Il teorema di Bayes le combina nella distribuzione a posteriori p(θ|x):

Leggila così: credenza a posteriori = quanto bene θ spiega i dati, pesata per quanto θ era plausibile in partenza. Più dati raccogli, più la verosimiglianza domina e dilava la distribuzione a priori.

Dove si trova nel MLLa regolarizzazione è questa stessa idea nell'uso quotidiano. Aggiungere una penalità L2 λ‖β‖² alla perdita equivale esattamente a una stima MAP con una priori gaussiana sui pesi. La priori dice "i pesi vicini a zero sono più plausibili". Aggiungere una penalità L1 corrisponde a una priori di Laplace, che preferisce pesi sparsi. Il weight decay non è un trucco: è una priori bayesiana sotto un…
▶ Stima Bayesiana
← MLE per Distribuzioni ComuniIntervalli di Confidenza →