Multiple lineare Regression

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Echte Vorhersagen nutzen viele Eingaben, nicht nur eine. Die multiple lineare Regression verallgemeinert die Gerade zu einer flachen Ebene (oder Hyperebene) in höheren Dimensionen: Jedes Merkmal erhält seinen eigenen Koeffizienten. Stapelt man alle Daten in eine Matrix X, wird das Modell herrlich kompakt:

Dabei ist X die n×d-Designmatrix (eine Zeile pro Beobachtung, eine Spalte pro Merkmal), β der Vektor der Koeffizienten und y die Ausgaben. Die OLS-Lösung hat eine berühmte geschlossene Form:

Es lohnt sich, sich die Geometrie vorzustellen. Der Vektor der Vorhersagen Xβ̂ muss im Spaltenraum von X liegen, also in der Menge aller Kombinationen deiner Merkmalsspalten. OLS wählt dasjenige β̂, dessen Vorhersage der Punkt in diesem Raum ist, der y am nächsten liegt. Geometrisch ist ŷ die orthogonale Projektion von y auf den Spaltenraum, und das Residuum y − ŷ steht senkrecht darauf. Genau diese Orthogonalität berechnet der Ausdruck (XᵀX)⁻¹Xᵀ.

Wo das im ML vorkommtDu blickst hier auf das Problem der kleinsten Quadrate aus der linearen Algebra – dieselbe Idee der Projektion auf den Spaltenraum. Die Formel der Normalgleichungen ist der Vorfahr in geschlossener Form dessen, was der Gradientenabstieg bei größeren Modellen näherungsweise berechnet. Ist XᵀX schlecht konditioniert (nahezu kollineare Merkmale), explodiert die Inverse – genau das Problem, das die…

▶ Multiple lineare Regression

← Einfache Lineare Regression Modelldiagnostik →