Modeldiagnostiek

Inferentie, schatting en besluitvorming uit data

Een regressie aanpassen is het makkelijke deel. De moeilijkere vraag is of je haar kunt vertrouwen. Modeldiagnostiek zijn de controles die een model betrappen dat de getallen past maar de onderliggende aannames schendt. Het nuttigste object om naar te kijken is het residu: e = y − ŷ, het overschot dat het model niet kon verklaren.

Als het model klopt, zouden de residuen eruit moeten zien als pure ruis: geen patroon, constante spreiding, ruwweg symmetrisch. Het belangrijkste gereedschap is een residuplot: residuen op de y-as tegen de aangepaste waarden (of een invoer) op de x-as. Je jaagt op structuur die er niet zou moeten zijn.

Een goede arts stopt niet bij het benoemen van de ziekte; hij controleert welke symptomen na de behandeling overblijven. Als een patiënt nog steeds een hardnekkige hoest heeft, heeft de diagnose iets gemist. Residuen zijn de overgebleven symptomen van een model: het deel van de data dat de gepaste lijn niet kon verklaren. Als ze een duidelijk patroon vertonen in plaats van onschuldige willekeurige ruis, heeft het model ook iets gemist.

Waar dit voorkomt in MLResiduanalyse is de statistische voorouder van leercurve- en foutanalyse in ML. "Trainingverlies ≠ validatieverlies" is een diagnose: een grote kloof signaleert overfitting (hoge variantie), net zoals gepatroneerde residuen een verkeerd gespecificeerd model signaleren. Je fouten in subgroepen opdelen om te vinden waar het model systematisch faalt is precies residuplot-denken, opgeschaald.
▶ Modeldiagnostiek
← Meervoudige Lineaire RegressieGeregulariseerde Regressie →