Извод, оценка и вземане на решения от данни
Обучението на регресията е лесната част. По-трудният въпрос е дали можете да ѝ се доверите. Диагностиката на модела обхваща проверките, които улавят дали един модел пасва на числата, но нарушава основните допускания под тях. Най-достъпният обект за анализ са остатъците (residuals): e = y − ŷ – тоест онова, което моделът не успява да обясни.
Ако моделът е правилен, остатъците трябва да изглеждат като чист шум: без видим модел (шаблон), с постоянна дисперсия (spread) и приблизително симетрични. Основният инструмент е графиката на остатъците (residual plot): остатъците по оста Y спрямо прогнозираните (fitted) стойности (или входовете) по оста X. Търсите структура (закономерност), която не би трябвало да е там.
Добрият лекар не спира с назоваването на болестта; той проверява какви симптоми са останали след лечението. Ако пациентът все още има упорита кашлица, диагнозата е пропуснала нещо. Остатъците са остатъчните симптоми на модела: частта от данните, която напаснатата линия не можа да обясни. Ако те показват ясен модел вместо безобиден случаен шум, моделът също е пропуснал нещо.