Meervoudige Lineaire Regressie

Inferentie, schatting en besluitvorming uit data

Echte voorspellingen gebruiken veel invoeren, niet één. Meervoudige lineaire regressie veralgemeent de lijn naar een vlak (of hypervlak) in hogere dimensies: elk kenmerk krijgt zijn eigen coëfficiënt. Door alle gegevens in een matrix X te stapelen, is het model prachtig compact:

Hier is X de n×d ontwerpmatrix (één rij per waarneming, één kolom per kenmerk), β de vector van coëfficiënten, en y de uitvoeren. De OLS-oplossing heeft een beroemde gesloten vorm:

De meetkunde is het waard voor te stellen. De vector van voorspellingen Xβ̂ moet in de kolomruimte van X liggen, de verzameling van alle combinaties van je kenmerkkolommen. OLS kiest de β̂ waarvan de voorspelling het punt in die ruimte is dat het dichtst bij y ligt. Meetkundig is ŷ de orthogonale projectie van y op de kolomruimte, en het residu y − ŷ staat er loodrecht op. Die loodrechtheid is precies wat (XᵀX)⁻¹Xᵀ berekent.

Waar dit voorkomt in MLJe kijkt naar het kleinste-kwadratenprobleem uit de lineaire algebra, hetzelfde idee van projectie-op-de-kolomruimte. De formule van de normaalvergelijkingen is de gesloten-vorm-voorouder van wat gradiëntafdaling benadert voor grotere modellen. Wanneer XᵀX slecht geconditioneerd is (bijna-collineaire kenmerken), ontploft de inverse, wat precies het probleem is dat ridge-regressie oplost door λI…
▶ Meervoudige Lineaire Regressie
← Enkelvoudige Lineaire RegressieModeldiagnostiek →