Inferenza, stima e processo decisionale dai dati
Se devi scegliere un singolo valore per il parametro θ, la regola più naturale è questa: scegli il θ che rende più probabili i dati che hai effettivamente osservato. Questa è la stima di massima verosimiglianza (MLE), il principio alla base dell'addestramento di quasi ogni modello nel ML.
Dati x₁, …, xₙ assunti indipendenti, la probabilità dell'intero campione è il prodotto delle probabilità dei singoli punti. Vista come funzione di θ, questo prodotto è la verosimiglianza:
Moltiplicare molte piccole probabilità porta a underflow verso zero ed è scomodo da derivare. La soluzione è prendere il logaritmo: il logaritmo di un prodotto è una somma, e poiché il logaritmo è crescente non sposta il punto di massimo. Massimizziamo quindi la log-verosimiglianza: