Geregulariseerde Regressie

Inferentie, schatting en besluitvorming uit data

OLS vindt de coëfficiënten die de trainingsdata het best passen, wat precies het probleem is wanneer je veel kenmerken of weinig data hebt: het past ook de ruis, en de coëfficiënten schieten naar extreme waarden. Geregulariseerde regressie temt dit door een straf toe te voegen die grote coëfficiënten bestraft, waarbij je een beetje trainingspassing inruilt voor veel betere generalisatie.

Ridge-regressie voegt een L2-straf toe, de gekwadrateerde lengte van de coëfficiëntvector:

De knop λ regelt de sterkte. λ = 0 is gewone OLS; naarmate λ groeit, wordt elke coëfficiënt naar nul gekrompen, wat het model gladstrijkt. Deze krimping repareert ook de slecht geconditioneerde (XᵀX)⁻¹ uit de vorige les: ridge voegt λI toe, wat inverteerbaarheid garandeert.

Waar dit voorkomt in MLDe ridge-straf is weight decay, de meest gebruikte regularisator in deep learning, ingebakken in elke optimizer. En zoals je zag in les 8, ridge = MAP met een Gaussische prior, lasso = MAP met een Laplace-prior. Regularisatie, weight decay en Bayesiaanse priors zijn drie namen voor hetzelfde idee: geef de voorkeur aan eenvoudigere gewichten tenzij de data sterk het tegendeel beweert.

▶ Geregulariseerde Regressie

← Modeldiagnostiek Bias-Variantie-Decompositie →