Wielokrotna regresja liniowa

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Prawdziwe predykcje zazwyczaj korzystają z wielu wejść, a nie tylko z jednego. Wielokrotna regresja liniowa uogólnia koncepcję prostej na płaską płaszczyznę (lub hiperpłaszczyznę) w wyższych wymiarach: każda cecha posiada w niej swój własny współczynnik. Składając wszystkie dane w jedną macierz X (ang. stacking), model przyjmuje piękną, zwartą postać:

W tym zapisie X oznacza macierz układu (design matrix) o wymiarach n×d (gdzie każdy wiersz to pojedyncza obserwacja, a kolumna to konkretna cecha), β to wektor współczynników, natomiast y reprezentuje zmienne wyjściowe. Rozwiązanie OLS (zwykłych najmniejszych kwadratów) posiada tu słynną postać zamkniętą:

Warto tę geometrię sobie wyobrazić. Wektor predykcji Xβ̂ musi żyć w przestrzeni kolumn macierzy X, będącej zbiorem wszystkich liniowych kombinacji kolumn cech. Algorytm OLS dobiera takie β̂, dla którego predykcja znajduje się najbliżej wektora y w tej właśnie przestrzeni. Rozpatrując to geometrycznie, ŷ to rzut prostokątny (ortogonalny) y na przestrzeń kolumn, a pozostała reszta y − ŷ jest do niej idealnie prostopadła. Ta właśnie prostopadłość to dokładnie to, co oblicza wyrażenie (XᵀX)⁻¹Xᵀ.

Gdzie to występuje w MLObserwujesz tu tak naprawdę problem najmniejszych kwadratów z zakresu algebry liniowej i dokładnie tę samą ideę rzutu wektora na przestrzeń kolumn. Wzór oparty na równaniach normalnych stanowi postać zamkniętą, która jest bezpośrednim przodkiem tego, co dla znacznie większych modeli przybliża dziś algorytm spadku wzdłuż gradientu (gradient descent). Z kolei gdy macierz XᵀX jest źle uwarunkowana…

▶ Wielokrotna regresja liniowa

← Prosta regresja liniowa Diagnostyka modelu →