Inferenza, stima e processo decisionale dai dati
OLS trova i coefficienti che si adattano meglio ai dati di addestramento, ed è proprio questo il problema quando hai molte feature o pochi dati: adatta anche il rumore, e i coefficienti schizzano verso valori abnormi. La regressione regolarizzata tiene a bada tutto questo aggiungendo una penalità che punisce i coefficienti grandi, sacrificando un po' di adattamento sull'addestramento in cambio di una generalizzazione molto migliore.
La ridge regression aggiunge una penalità L2, la lunghezza quadratica del vettore dei coefficienti:
La manopola λ ne regola l'intensità. Con λ = 0 si ha l'OLS puro; al crescere di λ ogni coefficiente viene contratto verso zero, rendendo il modello più liscio. Questo restringimento corregge anche la (XᵀX)⁻¹ mal condizionata della lezione precedente: la ridge aggiunge λI, garantendo l'invertibilità.