Inférence, estimation et prise de décision à partir des données
Les vraies prédictions utilisent de nombreuses entrées, pas une seule. La régression linéaire multiple généralise la droite à un plan plat (ou hyperplan) en dimensions supérieures : chaque feature obtient son propre coefficient. En empilant toutes les données dans une matrice X, le modèle est magnifiquement compact :
Ici X est la matrice de plan n×d (une ligne par observation, une colonne par feature), β le vecteur de coefficients, et y les sorties. La solution OLS a une forme fermée célèbre :
La géométrie vaut la peine d'être imaginée. Le vecteur de prédictions Xβ̂ doit vivre dans l'espace des colonnes de X, l'ensemble de toutes les combinaisons de vos colonnes de features. OLS choisit le β̂ dont la prédiction est le point dans cet espace le plus proche de y. Géométriquement, ŷ est la projection orthogonale de y sur l'espace des colonnes, et le résidu y − ŷ lui est perpendiculaire. Cette perpendicularité est exactement ce que (XᵀX)⁻¹Xᵀ calcule.