Régression Linéaire Multiple

Inférence, estimation et prise de décision à partir des données

Les vraies prédictions utilisent de nombreuses entrées, pas une seule. La régression linéaire multiple généralise la droite à un plan plat (ou hyperplan) en dimensions supérieures : chaque feature obtient son propre coefficient. En empilant toutes les données dans une matrice X, le modèle est magnifiquement compact :

Ici X est la matrice de plan n×d (une ligne par observation, une colonne par feature), β le vecteur de coefficients, et y les sorties. La solution OLS a une forme fermée célèbre :

La géométrie vaut la peine d'être imaginée. Le vecteur de prédictions Xβ̂ doit vivre dans l'espace des colonnes de X, l'ensemble de toutes les combinaisons de vos colonnes de features. OLS choisit le β̂ dont la prédiction est le point dans cet espace le plus proche de y. Géométriquement, ŷ est la projection orthogonale de y sur l'espace des colonnes, et le résidu y − ŷ lui est perpendiculaire. Cette perpendicularité est exactement ce que (XᵀX)⁻¹Xᵀ calcule.

Où cela apparaît en MLVous regardez le problème des moindres carrés de l'algèbre linéaire, la même idée de projection sur l'espace des colonnes. La formule des équations normales est l'ancêtre à forme fermée de ce que la descente de gradient approxime pour des modèles plus grands. Quand XᵀX est mal conditionné (features quasi colinéaires), l'inverse explose, ce qui est exactement le problème que la régression ridge…

▶ Régression Linéaire Multiple

← Régression Linéaire Simple Diagnostics de Modèle →