正则化回归
从数据中进行推断、估计和决策
OLS(普通最小二乘)寻找最能拟合训练数据的系数,而当特征很多或数据很少时,这恰恰是问题所在:它把噪声也拟合了进去,系数会摆动到极端的数值。正则化回归通过加入一个惩罚大系数的惩罚项来驯服这一点,用训练拟合上的少许牺牲换取大得多的泛化能力提升。
岭回归加入一个 L2 惩罚项,即系数向量长度的平方:
旋钮 λ 控制其强度。λ = 0 就是普通的 OLS;随着 λ 增大,每个系数都会向零收缩,使模型变得平滑。这种收缩同时也修复了上一课中病态的 (XᵀX)⁻¹:岭回归加上 λI,保证了可逆性。
在机器学习中的应用岭惩罚就是权重衰减,这是深度学习中最常见的正则化手段,已内置进每一个优化器。正如你在第 8 课所见,岭回归 = 带高斯先验的 MAP,套索 = 带拉普拉斯先验的 MAP。正则化、权重衰减和贝叶斯先验是同一个想法的三个名字:除非数据有力地反驳,否则偏好更简单的权重。
▶ 正则化回归