Регуляризирана регресия — Статистика

OLS намира коефициентите, които пасват най-добре на тренировъчните данни, което е точно проблемът, когато имате много характеристики или малко данни: моделът започва да напасва и на шума, а коефициентите скачат до екстремни стойности. Регуляризираната регресия (Regularized regression) укротява това чрез добавяне на член за наказание (penalty), който санкционира големите коефициенти, жертвайки малко от точността при обучението в замяна на много по-добро обобщаване (generalization).

Ridge регресията (Ridge regression) добавя L2 наказание – сумата от квадратите на вектора от коефициенти (неговата квадратна дължина):

Параметърът λ контролира силата на регуляризацията. При λ = 0 получаваме обикновен OLS; с нарастването на λ, всеки коефициент се свива към нула (shrinkage), изглаждайки модела. Това свиване също така решава проблема с лошо обусловената матрица (XᵀX)⁻¹ от предишния урок: Ridge регресията добавя λI, което гарантира обратимост.

Къде се използва това в MLНаказанието в Ridge е еквивалентно на weight decay (затихване на теглата) – най-често срещаният регуляризатор в дълбокото обучение, вграден във всеки оптимизатор. И както видяхте в урок 8, Ridge регресията = MAP оценка с Гаусово априорно разпределение, а Lasso = MAP с Лапласово априорно разпределение. Регуляризацията, затихването на теглата и байесовите априорни разпределения са три имена за една…