Диагностика на модела

Извод, оценка и вземане на решения от данни

Обучението на регресията е лесната част. По-трудният въпрос е дали можете да ѝ се доверите. Диагностиката на модела обхваща проверките, които улавят дали един модел пасва на числата, но нарушава основните допускания под тях. Най-достъпният обект за анализ са остатъците (residuals): e = y − ŷ – тоест онова, което моделът не успява да обясни.

Ако моделът е правилен, остатъците трябва да изглеждат като чист шум: без видим модел (шаблон), с постоянна дисперсия (spread) и приблизително симетрични. Основният инструмент е графиката на остатъците (residual plot): остатъците по оста Y спрямо прогнозираните (fitted) стойности (или входовете) по оста X. Търсите структура (закономерност), която не би трябвало да е там.

Добрият лекар не спира с назоваването на болестта; той проверява какви симптоми са останали след лечението. Ако пациентът все още има упорита кашлица, диагнозата е пропуснала нещо. Остатъците са остатъчните симптоми на модела: частта от данните, която напаснатата линия не можа да обясни. Ако те показват ясен модел вместо безобиден случаен шум, моделът също е пропуснал нещо.

Къде се използва това в MLАнализът на остатъците е статистическият предшественик на анализа на кривите на обучение (learning curves) и грешките в машинното обучение. „Тренировъчната загуба ≠ валидационната загуба“ е вид диагностика: голяма разлика сигнализира за преобучаване (overfitting, висока вариация), точно както остатъците с ясен шаблон сигнализират за неправилно специфициран модел. Разделянето на грешките по…
▶ Диагностика на модела
← Множествена линейна регресияРегуляризирана регресия →