Regressione Lineare Multipla

Inferenza, stima e processo decisionale dai dati

Le predizioni reali usano molti input, non uno solo. La regressione lineare multipla generalizza la retta a un piano (o iperpiano) in dimensioni superiori: ogni feature ha il proprio coefficiente. Impilando tutti i dati in una matrice X, il modello assume una forma splendidamente compatta:

Qui X è la matrice di design n×d (una riga per ogni osservazione, una colonna per ogni feature), β è il vettore dei coefficienti e y il vettore degli output. La soluzione OLS ha una celebre forma chiusa:

Vale la pena visualizzare la geometria. Il vettore delle predizioni Xβ̂ deve vivere nello spazio generato dalle colonne di X, cioè l'insieme di tutte le combinazioni delle colonne di feature. OLS sceglie il β̂ la cui predizione è il punto di quello spazio più vicino a y. Geometricamente, ŷ è la proiezione ortogonale di y su quello spazio, e il residuo y − ŷ è perpendicolare ad esso. È proprio questa perpendicolarità ciò che (XᵀX)⁻¹Xᵀ calcola.

Dove si trova nel MLStai osservando il problema dei minimi quadrati dell'algebra lineare, la stessa idea di proiezione sullo spazio generato dalle colonne. La formula delle equazioni normali è l'antenato in forma chiusa di ciò che la discesa del gradiente approssima per i modelli più grandi. Quando XᵀX è mal condizionata (feature quasi collineari), l'inversa esplode: è esattamente il problema che la ridge regression…

▶ Regressione Lineare Multipla

← Regressione Lineare Semplice Diagnostica del Modello →