Regressione Regolarizzata

Inferenza, stima e processo decisionale dai dati

OLS trova i coefficienti che si adattano meglio ai dati di addestramento, ed è proprio questo il problema quando hai molte feature o pochi dati: adatta anche il rumore, e i coefficienti schizzano verso valori abnormi. La regressione regolarizzata tiene a bada tutto questo aggiungendo una penalità che punisce i coefficienti grandi, sacrificando un po' di adattamento sull'addestramento in cambio di una generalizzazione molto migliore.

La ridge regression aggiunge una penalità L2, la lunghezza quadratica del vettore dei coefficienti:

La manopola λ ne regola l'intensità. Con λ = 0 si ha l'OLS puro; al crescere di λ ogni coefficiente viene contratto verso zero, rendendo il modello più liscio. Questo restringimento corregge anche la (XᵀX)⁻¹ mal condizionata della lezione precedente: la ridge aggiunge λI, garantendo l'invertibilità.

Dove si trova nel MLLa penalità ridge è il weight decay, il regolarizzatore più comune nel deep learning, integrato in ogni ottimizzatore. E come hai visto nella lezione 8, ridge = MAP con una prior gaussiana, lasso = MAP con una prior di Laplace. Regolarizzazione, weight decay e prior bayesiane sono tre nomi per la stessa idea: preferire pesi più semplici, a meno che i dati non suggeriscano con forza il contrario.

▶ Regressione Regolarizzata

← Diagnostica del Modello Decomposizione Bias-Varianza →