Inferencia, estimación y toma de decisiones a partir de datos
Las predicciones reales utilizan muchos inputs, no uno. La regresión lineal múltiple generaliza la línea a un plano (o hiperplano) en dimensiones más altas: cada característica obtiene su propio coeficiente. Al apilar todo el dato en una matriz X, el modelo es maravillosamente compacto:
Aquí X es la matriz de diseño n×d diseño (una fila por observación, una columna por característica), β es el vector de coeficientes y y las salidas. La solución OLS tiene una famosa forma cerrada:
La geometría vale la pena imaginar. El vector de predicciones Xβ̂ debe vivir en el espacio columna de X, el conjunto de todas las combinaciones de tus columnas de características. OLS selecciona el β̂ cuya predicción es el punto en ese espacio más cercano a y. Geométricamente, ŷ es la proyección ortogonal de y sobre el espacio columna, y el residuo y − ŷ es perpendicular a él. Esa perpendicularidad es exactamente lo que (XᵀX)⁻¹Xᵀ computa.