Inferenz, Schätzung und Entscheidungsfindung aus Daten
OLS findet die Koeffizienten, die zu den Trainingsdaten am besten passen – und genau das ist das Problem, wenn du viele Merkmale oder wenig Daten hast: Das Modell passt sich auch an das Rauschen an, und die Koeffizienten schwanken zu extremen Werten. Die regularisierte Regression bändigt dies, indem sie einen Strafterm hinzufügt, der große Koeffizienten bestraft, und so etwas Anpassungsgüte auf den Trainingsdaten gegen eine deutlich bessere Generalisierung eintauscht.
Die Ridge-Regression fügt einen L2-Strafterm hinzu, die quadrierte Länge des Koeffizientenvektors:
Der Regler λ steuert die Stärke. λ = 0 ergibt reines OLS; je größer λ wird, desto stärker wird jeder Koeffizient gegen null geschrumpft, was das Modell glättet. Diese Schrumpfung behebt auch das Problem der schlecht konditionierten (XᵀX)⁻¹ aus der vorigen Lektion: Ridge addiert λI und sichert so die Invertierbarkeit.