Вывод, оценивание и принятие решений по данным
Подогнать регрессию — лёгкая часть. Сложнее — можно ли ей доверять. Диагностика модели — проверки, ловящие модель, что подходит числа, но нарушает предположения. Самый полезный объект — остаток: e = y − ŷ, то, что модель не смогла объяснить.
Если модель верна, остатки похожи на чистый шум: без паттерна, постоянный разброс, примерно симметричны. Главный инструмент — график остатков: остатки по y, подогнанные значения (или вход) по x. Ищете структуру, которой не должно быть.
Хороший врач не останавливается на названии болезни; он проверяет, какие симптомы остались после лечения. Если у пациента все еще есть упорный кашель, значит, диагноз что-то упустил. Остатки (residuals) — это оставшиеся симптомы модели: та часть данных, которую подобранная линия не смогла объяснить. Если они показывают явную закономерность вместо безвредного случайного шума, то модель тоже что-то упустила.