Modelldiagnostik

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Eine Regression anzupassen ist der einfache Teil. Die schwierigere Frage ist, ob man dem Modell trauen kann. Modelldiagnostik umfasst die Überprüfungen, die ein Modell entlarven, das zwar die Zahlen trifft, aber die zugrunde liegenden Annahmen verletzt. Das nützlichste Objekt dafür ist das Residuum: e = y − ŷ, also der Rest, den das Modell nicht erklären konnte.

Ist das Modell korrekt, sollten die Residuen wie reines Rauschen aussehen: keine Struktur, konstante Streuung, ungefähr symmetrisch. Das wichtigste Werkzeug ist ein Residuenplot: die Residuen auf der y-Achse, aufgetragen gegen die angepassten Werte (oder eine Eingabe) auf der x-Achse. Du suchst dabei nach Struktur, die eigentlich nicht da sein sollte.

Ein guter Arzt hört nicht beim Benennen der Krankheit auf; er überprüft, welche Symptome nach der Behandlung übrig geblieben sind. Wenn ein Patient immer noch einen hartnäckigen Husten hat, hat die Diagnose etwas übersehen. Residuen sind die übrig gebliebenen Symptome eines Modells: der Teil der Daten, den die angepasste Linie nicht erklären konnte. Wenn sie ein klares Muster anstelle von harmlosem zufälligen Rauschen zeigen, hat das Modell ebenfalls etwas übersehen.

Wo das im ML vorkommtDie Residuenanalyse ist der statistische Vorläufer der Lernkurven- und Fehleranalyse im ML. "Trainingsverlust ≠ Validierungsverlust" ist eine Diagnose: Ein großer Abstand signalisiert Overfitting (hohe Varianz), genauso wie strukturierte Residuen auf ein fehlspezifiziertes Modell hindeuten. Die Fehler nach Untergruppen aufzuschlüsseln, um herauszufinden, wo das Modell systematisch versagt, ist…

▶ Modelldiagnostik

← Multiple lineare Regression Regularisierte Regression →