Wnioskowanie, estymacja i podejmowanie decyzji z danych
Metoda OLS znajduje współczynniki, które najlepiej dopasowują się do danych treningowych, co stanowi spory problem w sytuacji, gdy masz do dyspozycji bardzo wiele cech lub bardzo mało danych. Dopasowuje ona bowiem również zwykły szum, a wartości samych współczynników skaczą wówczas do dzikich, ekstremalnych poziomów. Zjawisko to opanowuje regresja regularyzowana poprzez dodanie funkcji kary, która skutecznie tłumi („gasi”) zbyt duże współczynniki. Wymienia ona odrobinę precyzji w dopasowaniu treningowym na znacznie lepszą zdolność do generalizacji modelu.
Regresja grzbietowa (Ridge) dodaje karę L2, będącą kwadratem długości wektora współczynników:
Pokrętło oznaczane symbolem λ pozwala kontrolować siłę tej kary. λ = 0 daje nam czysty algorytm OLS; w miarę jak λ rośnie, wartość każdego ze współczynników jest coraz mocniej kurczona w stronę zera, co wygładza cały model. Kurczenie to naprawia przy okazji problem źle uwarunkowanej macierzy (XᵀX)⁻¹, o której mowa była w poprzedniej lekcji: regresja grzbietowa dodaje bowiem człon λI, który na nowo gwarantuje pełną odwracalność macierzy.