OLS는 훈련 데이터에 가장 잘 맞는 계수를 찾습니다. 그런데 이것이 바로 특징이 많거나 데이터가 적을 때 문제가 됩니다. 잡음까지 함께 맞추면서 계수가 엉뚱하게 큰 값으로 튀어 버리기 때문입니다. 정규화 회귀는 큰 계수에 벌점을 매겨 이것을 길들이며, 훈련 적합도를 약간 내주는 대신 훨씬 나은 일반화를 얻습니다.
릿지 회귀는 L2 벌점, 즉 계수 벡터의 제곱 길이를 더합니다.
조절 손잡이 λ가 강도를 제어합니다. λ = 0이면 순수한 OLS이고, λ가 커질수록 모든 계수가 0을 향해 수축하면서 모델이 부드러워집니다. 이 수축은 지난 레슨에서 본 ill-conditioned한 (XᵀX)⁻¹ 문제도 해결합니다. 릿지가 λI를 더해 주어 가역성을 보장하기 때문입니다.
머신러닝에서의 위치릿지 벌점은 곧 weight decay, 즉 딥러닝에서 가장 흔하며 모든 옵티마이저에 내장된 정규화입니다. 그리고 8번 레슨에서 보았듯, 릿지는 가우시안 사전 분포의 MAP, 라소는 라플라스 사전 분포의 MAP에 해당합니다. 정규화, weight decay, 베이즈 사전 분포는 같은 아이디어를 부르는 세 가지 이름입니다. 데이터가 강하게 주장하지 않는 한 더 단순한 가중치를 선호한다는 것이지요.