Régression Régularisée

Inférence, estimation et prise de décision à partir des données

OLS trouve les coefficients qui ajustent le mieux les données d'entraînement, ce qui est exactement le problème quand vous avez beaucoup de features ou peu de données : il ajuste aussi le bruit, et les coefficients partent vers des valeurs sauvages. La régression régularisée apprivoise cela en ajoutant une pénalité qui punit les grands coefficients, échangeant un peu d'ajustement d'entraînement pour une bien meilleure généralisation.

La régression ridge ajoute une pénalité L2, la longueur quadratique du vecteur de coefficients :

Le bouton λ contrôle la force. λ = 0 est le pur OLS ; quand λ grandit, chaque coefficient est rétréci vers zéro, lissant le modèle. Ce rétrécissement corrige aussi le (XᵀX)⁻¹ mal conditionné de la dernière leçon : ridge ajoute λI, garantissant l'inversibilité.

Où cela apparaît en MLLa pénalité ridge est le weight decay, le régulariseur le plus courant en deep learning, intégré dans chaque optimiseur. Et comme vous l'avez vu à la leçon 8, ridge = MAP avec un a priori gaussien, lasso = MAP avec un a priori de Laplace. Régularisation, weight decay et a priori bayésiens sont trois noms pour la même idée : préférez des poids plus simples à moins que les données plaident…

▶ Régression Régularisée

← Diagnostics de Modèle Décomposition Biais-Variance →