Диагностика модели

Вывод, оценивание и принятие решений по данным

Подогнать регрессию — лёгкая часть. Сложнее — можно ли ей доверять. Диагностика модели — проверки, ловящие модель, что подходит числа, но нарушает предположения. Самый полезный объект — остаток: e = y − ŷ, то, что модель не смогла объяснить.

Если модель верна, остатки похожи на чистый шум: без паттерна, постоянный разброс, примерно симметричны. Главный инструмент — график остатков: остатки по y, подогнанные значения (или вход) по x. Ищете структуру, которой не должно быть.

Хороший врач не останавливается на названии болезни; он проверяет, какие симптомы остались после лечения. Если у пациента все еще есть упорный кашель, значит, диагноз что-то упустил. Остатки (residuals) — это оставшиеся симптомы модели: та часть данных, которую подобранная линия не смогла объяснить. Если они показывают явную закономерность вместо безвредного случайного шума, то модель тоже что-то упустила.

Где это встречается в MLАнализ остатков — статистический предок кривых обучения и анализа ошибок в ML. «Ошибка обучения ≠ ошибка валидации» — диагностика: большой разрыв сигнализирует переобучение (высокая дисперсия), как паттернированные остатки сигнализируют о misspecified модели. Нарезка ошибок по подгруппам для поиска систематических провалов — именно мышление графика остатков, в масштабе.
▶ Диагностика модели
← Множественная линейная регрессияРегуляризованная регрессия →