Inferentie, schatting en besluitvorming uit data
Een regressie aanpassen is het makkelijke deel. De moeilijkere vraag is of je haar kunt vertrouwen. Modeldiagnostiek zijn de controles die een model betrappen dat de getallen past maar de onderliggende aannames schendt. Het nuttigste object om naar te kijken is het residu: e = y − ŷ, het overschot dat het model niet kon verklaren.
Als het model klopt, zouden de residuen eruit moeten zien als pure ruis: geen patroon, constante spreiding, ruwweg symmetrisch. Het belangrijkste gereedschap is een residuplot: residuen op de y-as tegen de aangepaste waarden (of een invoer) op de x-as. Je jaagt op structuur die er niet zou moeten zijn.
Een goede arts stopt niet bij het benoemen van de ziekte; hij controleert welke symptomen na de behandeling overblijven. Als een patiënt nog steeds een hardnekkige hoest heeft, heeft de diagnose iets gemist. Residuen zijn de overgebleven symptomen van een model: het deel van de data dat de gepaste lijn niet kon verklaren. Als ze een duidelijk patroon vertonen in plaats van onschuldige willekeurige ruis, heeft het model ook iets gemist.