Inferenza, stima e processo decisionale dai dati
Le predizioni reali usano molti input, non uno solo. La regressione lineare multipla generalizza la retta a un piano (o iperpiano) in dimensioni superiori: ogni feature ha il proprio coefficiente. Impilando tutti i dati in una matrice X, il modello assume una forma splendidamente compatta:
Qui X è la matrice di design n×d (una riga per ogni osservazione, una colonna per ogni feature), β è il vettore dei coefficienti e y il vettore degli output. La soluzione OLS ha una celebre forma chiusa:
Vale la pena visualizzare la geometria. Il vettore delle predizioni Xβ̂ deve vivere nello spazio generato dalle colonne di X, cioè l'insieme di tutte le combinazioni delle colonne di feature. OLS sceglie il β̂ la cui predizione è il punto di quello spazio più vicino a y. Geometricamente, ŷ è la proiezione ortogonale di y su quello spazio, e il residuo y − ŷ è perpendicolare ad esso. È proprio questa perpendicolarità ciò che (XᵀX)⁻¹Xᵀ calcola.