Wnioskowanie, estymacja i podejmowanie decyzji z danych
Samo dopasowanie modelu regresji to najłatwiejsza część zadania. Znacznie trudniejsze pozostaje pytanie: czy możesz uzyskanym wynikom ufać? Diagnostyka modelu to zbiór procedur kontrolnych, które pomagają wykryć sytuacje, gdy model co prawda dopasował się do liczb, ale jednocześnie drastycznie łamie leżące u jego podstaw założenia statystyczne. Najbardziej użytecznym obiektem w tym procesie jest tzw. reszta (residual): e = y − ŷ, czyli po prostu to wszystko, czego twój model nie zdołał wyjaśnić.
Jeśli model ma rację, wykres reszt powinien przypominać czysty szum: brak jakichkolwiek wzorców, stałe rozproszenie wariancji i w miarę symetryczny rozkład. Głównym narzędziem do tego typu analizy jest wykres reszt względem wartości przewidywanych: wartości reszt lądują na osi Y, a wartości dopasowane (lub zmienne wejściowe) na osi X. Twoim zadaniem jest wypatrywanie jakiejkolwiek struktury, której po prostu nie powinno tam być.
Dobry lekarz nie poprzestaje na nazwaniu choroby; sprawdza, jakie objawy pozostały po leczeniu. Jeśli pacjent nadal ma uporczywy kaszel, w diagnozie czegoś zabrakło. Reszty to pozostałe objawy modelu: ta część danych, której dopasowana linia nie potrafiła wyjaśnić. Jeśli zamiast nieszkodliwego losowego szumu układają się one w wyraźny wzór, to model także coś przeoczył.