Регуляризованная регрессия — Статистика

Вывод, оценивание и принятие решений по данным

OLS находит коэффициенты, лучше всего подгоняющие обучающие данные, что и есть проблема при многих признаках или малых данных: подгоняет и шум, коэффициенты улетают в дикие значения. Регуляризованная регрессия укрощает это, добавляя штраф за большие коэффициенты, обменивая немного прилегания на гораздо лучшую генерализацию.

Гребневая регрессия добавляет L2-штраф, квадрат длины вектора коэффициентов:

Ручка λ контролирует силу. λ = 0 — чистый OLS; с ростом λ каждый коэффициент стягивается к нулю, сглаживая модель. Это стягивание также чинит плохо обусловленную (XᵀX)⁻¹ из прошлого урока: гребень добавляет λI, гарантируя обратимость.

Где это встречается в MLШтраф гребня — weight decay, самый частый регуляризатор в глубоком обучении, встроенный в каждый оптимизатор. И как видели в уроке 8, гребень = MAP с гауссовым априорным, лассо = MAP с априорным Лапласа. Регуляризация, weight decay и байесовские априорные — три имени одной идеи: предпочитайте более простые веса, если данные сильно не требуют иного.