Regularisierte Regression

Inferenz, Schätzung und Entscheidungsfindung aus Daten

OLS findet die Koeffizienten, die zu den Trainingsdaten am besten passen – und genau das ist das Problem, wenn du viele Merkmale oder wenig Daten hast: Das Modell passt sich auch an das Rauschen an, und die Koeffizienten schwanken zu extremen Werten. Die regularisierte Regression bändigt dies, indem sie einen Strafterm hinzufügt, der große Koeffizienten bestraft, und so etwas Anpassungsgüte auf den Trainingsdaten gegen eine deutlich bessere Generalisierung eintauscht.

Die Ridge-Regression fügt einen L2-Strafterm hinzu, die quadrierte Länge des Koeffizientenvektors:

Der Regler λ steuert die Stärke. λ = 0 ergibt reines OLS; je größer λ wird, desto stärker wird jeder Koeffizient gegen null geschrumpft, was das Modell glättet. Diese Schrumpfung behebt auch das Problem der schlecht konditionierten (XᵀX)⁻¹ aus der vorigen Lektion: Ridge addiert λI und sichert so die Invertierbarkeit.

Wo das im ML vorkommtDer Ridge-Strafterm ist der Weight Decay, der häufigste Regularisierer im Deep Learning, fest in jeden Optimierer eingebaut. Und wie du in Lektion 8 gesehen hast, gilt: Ridge = MAP mit einem gaußschen Prior, Lasso = MAP mit einem Laplace-Prior. Regularisierung, Weight Decay und Bayessche Priors sind drei Namen für ein und dieselbe Idee: einfache Gewichte zu bevorzugen, sofern die Daten nicht…

▶ Regularisierte Regression

← Modelldiagnostik Bias-Varianz-Zerlegung →