正则化回归

从数据中进行推断、估计和决策

OLS（普通最小二乘）寻找最能拟合训练数据的系数，而当特征很多或数据很少时，这恰恰是问题所在：它把噪声也拟合了进去，系数会摆动到极端的数值。正则化回归通过加入一个惩罚大系数的惩罚项来驯服这一点，用训练拟合上的少许牺牲换取大得多的泛化能力提升。

岭回归加入一个 L2 惩罚项，即系数向量长度的平方：

旋钮 λ 控制其强度。λ = 0 就是普通的 OLS；随着 λ 增大，每个系数都会向零收缩，使模型变得平滑。这种收缩同时也修复了上一课中病态的 (XᵀX)⁻¹：岭回归加上 λI，保证了可逆性。

在机器学习中的应用岭惩罚就是权重衰减，这是深度学习中最常见的正则化手段，已内置进每一个优化器。正如你在第 8 课所见，岭回归 = 带高斯先验的 MAP，套索 = 带拉普拉斯先验的 MAP。正则化、权重衰减和贝叶斯先验是同一个想法的三个名字：除非数据有力地反驳，否则偏好更简单的权重。