Stima di Massima Verosimiglianza

Inferenza, stima e processo decisionale dai dati

Se devi scegliere un singolo valore per il parametro θ, la regola più naturale è questa: scegli il θ che rende più probabili i dati che hai effettivamente osservato. Questa è la stima di massima verosimiglianza (MLE), il principio alla base dell'addestramento di quasi ogni modello nel ML.

Dati x₁, …, xₙ assunti indipendenti, la probabilità dell'intero campione è il prodotto delle probabilità dei singoli punti. Vista come funzione di θ, questo prodotto è la verosimiglianza:

Moltiplicare molte piccole probabilità porta a underflow verso zero ed è scomodo da derivare. La soluzione è prendere il logaritmo: il logaritmo di un prodotto è una somma, e poiché il logaritmo è crescente non sposta il punto di massimo. Massimizziamo quindi la log-verosimiglianza:

Dove si trova nel MLAddestrare un modello equivale a una massima verosimiglianza. Minimizzare la perdita di entropia incrociata (cross-entropy) equivale esattamente a massimizzare la log-verosimiglianza delle etichette; l'entropia incrociata è la log-verosimiglianza negativa. Minimizzare l'errore quadratico medio è MLE sotto l'ipotesi di rumore gaussiano. Quando chiami .backward() e fai un passo dell'ottimizzatore,…
▶ Stima di Massima Verosimiglianza
← Parametri e StimatoriMLE per Distribuzioni Comuni →