Inferenz, Schätzung und Entscheidungsfindung aus Daten
Echte Vorhersagen nutzen viele Eingaben, nicht nur eine. Die multiple lineare Regression verallgemeinert die Gerade zu einer flachen Ebene (oder Hyperebene) in höheren Dimensionen: Jedes Merkmal erhält seinen eigenen Koeffizienten. Stapelt man alle Daten in eine Matrix X, wird das Modell herrlich kompakt:
Dabei ist X die n×d-Designmatrix (eine Zeile pro Beobachtung, eine Spalte pro Merkmal), β der Vektor der Koeffizienten und y die Ausgaben. Die OLS-Lösung hat eine berühmte geschlossene Form:
Es lohnt sich, sich die Geometrie vorzustellen. Der Vektor der Vorhersagen Xβ̂ muss im Spaltenraum von X liegen, also in der Menge aller Kombinationen deiner Merkmalsspalten. OLS wählt dasjenige β̂, dessen Vorhersage der Punkt in diesem Raum ist, der y am nächsten liegt. Geometrisch ist ŷ die orthogonale Projektion von y auf den Spaltenraum, und das Residuum y − ŷ steht senkrecht darauf. Genau diese Orthogonalität berechnet der Ausdruck (XᵀX)⁻¹Xᵀ.