Inférence, estimation et prise de décision à partir des données
OLS trouve les coefficients qui ajustent le mieux les données d'entraînement, ce qui est exactement le problème quand vous avez beaucoup de features ou peu de données : il ajuste aussi le bruit, et les coefficients partent vers des valeurs sauvages. La régression régularisée apprivoise cela en ajoutant une pénalité qui punit les grands coefficients, échangeant un peu d'ajustement d'entraînement pour une bien meilleure généralisation.
La régression ridge ajoute une pénalité L2, la longueur quadratique du vecteur de coefficients :
Le bouton λ contrôle la force. λ = 0 est le pur OLS ; quand λ grandit, chaque coefficient est rétréci vers zéro, lissant le modèle. Ce rétrécissement corrige aussi le (XᵀX)⁻¹ mal conditionné de la dernière leçon : ridge ajoute λI, garantissant l'inversibilité.