Wnioskowanie, estymacja i podejmowanie decyzji z danych
Prawdziwe predykcje zazwyczaj korzystają z wielu wejść, a nie tylko z jednego. Wielokrotna regresja liniowa uogólnia koncepcję prostej na płaską płaszczyznę (lub hiperpłaszczyznę) w wyższych wymiarach: każda cecha posiada w niej swój własny współczynnik. Składając wszystkie dane w jedną macierz X (ang. stacking), model przyjmuje piękną, zwartą postać:
W tym zapisie X oznacza macierz układu (design matrix) o wymiarach n×d (gdzie każdy wiersz to pojedyncza obserwacja, a kolumna to konkretna cecha), β to wektor współczynników, natomiast y reprezentuje zmienne wyjściowe. Rozwiązanie OLS (zwykłych najmniejszych kwadratów) posiada tu słynną postać zamkniętą:
Warto tę geometrię sobie wyobrazić. Wektor predykcji Xβ̂ musi żyć w przestrzeni kolumn macierzy X, będącej zbiorem wszystkich liniowych kombinacji kolumn cech. Algorytm OLS dobiera takie β̂, dla którego predykcja znajduje się najbliżej wektora y w tej właśnie przestrzeni. Rozpatrując to geometrycznie, ŷ to rzut prostokątny (ortogonalny) y na przestrzeń kolumn, a pozostała reszta y − ŷ jest do niej idealnie prostopadła. Ta właśnie prostopadłość to dokładnie to, co oblicza wyrażenie (XᵀX)⁻¹Xᵀ.