Parametri e Stimatori

Inferenza, stima e processo decisionale dai dati

Quasi ogni domanda statistica ha la stessa struttura. Esiste un numero vero nel mondo che non puoi osservare, il parametro θ (una media vera, una vera probabilità di successo). Hai a disposizione soltanto un campione finito di dati. Da quei dati calcoli una stima, lo stimatore θ̂. La stima è l'arte di costruire buone approssimazioni e di sapere quanto fidarsene.

Poiché i dati sono casuali, θ̂ è esso stesso una quantità casuale: ripeti l'esperimento e ottieni un θ̂ diverso. Giudichiamo uno stimatore in base a due cose: la sua distorsione (in media coglie θ?) e la sua varianza (quanto oscilla da campione a campione?).

Non puoi bere l'intera pentola di zuppa per giudicare il condimento, quindi mescoli bene e assaggi un cucchiaio. La vera salinità dell'intera pentola è il parametro θ che non puoi vedere direttamente; la salinità del tuo cucchiaio è lo stimatore θ̂. Mescola accuratamente prima e un singolo cucchiaio stimerà l'intera pentola in modo notevole — quel mescolare è ciò che rende il campione rappresentativo.

Dove si trova nel MLUnderfitting e overfitting sono lo stesso compromesso. I parametri di un modello sono i θ̂, stimati a partire da dati di addestramento finiti. Underfitting = alta distorsione: il modello è troppo semplice per cogliere la verità. Overfitting = alta varianza: il modello è così flessibile da memorizzare quel particolare campione di addestramento, e un nuovo campione darebbe parametri completamente…
▶ Parametri e Stimatori
← Relazioni tra VariabiliStima di Massima Verosimiglianza →