Regresja regularyzowana

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Metoda OLS znajduje współczynniki, które najlepiej dopasowują się do danych treningowych, co stanowi spory problem w sytuacji, gdy masz do dyspozycji bardzo wiele cech lub bardzo mało danych. Dopasowuje ona bowiem również zwykły szum, a wartości samych współczynników skaczą wówczas do dzikich, ekstremalnych poziomów. Zjawisko to opanowuje regresja regularyzowana poprzez dodanie funkcji kary, która skutecznie tłumi („gasi”) zbyt duże współczynniki. Wymienia ona odrobinę precyzji w dopasowaniu treningowym na znacznie lepszą zdolność do generalizacji modelu.

Regresja grzbietowa (Ridge) dodaje karę L2, będącą kwadratem długości wektora współczynników:

Pokrętło oznaczane symbolem λ pozwala kontrolować siłę tej kary. λ = 0 daje nam czysty algorytm OLS; w miarę jak λ rośnie, wartość każdego ze współczynników jest coraz mocniej kurczona w stronę zera, co wygładza cały model. Kurczenie to naprawia przy okazji problem źle uwarunkowanej macierzy (XᵀX)⁻¹, o której mowa była w poprzedniej lekcji: regresja grzbietowa dodaje bowiem człon λI, który na nowo gwarantuje pełną odwracalność macierzy.

Gdzie to występuje w MLKara nakładana w regresji grzbietowej to inaczej weight decay (zanik wag) – absolutnie najczęstszy rodzaj regularyzatora w procesie głębokiego uczenia (Deep Learning), wbudowany zresztą w konstrukcję niemal każdego współczesnego optymalizatora. Ponadto, jak widziałeś w lekcji 8: regresja grzbietowa to estymacja MAP z gaussowskim rozkładem a priori; regresja lasso to MAP z rozkładem Laplace'a a…

▶ Regresja regularyzowana

← Diagnostyka modelu Dekompozycja obciążenie–wariancja →