Разложение смещения и дисперсии — Статистика

Вывод, оценивание и принятие решений по данным

Почему модель, идеально подгоняющая обучающие данные, часто проваливается на новых? Разложение смещения и дисперсии даёт точный количественный ответ. Оно расщепляет ожидаемую ошибку предсказания на три части, две из которых тянут в противоположные стороны.

Смещение² — ошибка от неверных предположений: модель слишком проста для истины (недообучение). Дисперсия — ошибка от чувствительности к конкретной обучающей выборке: модель настолько гибка, что запоминает шум (переобучение). Шум — несократимый: случайность в данных, которую никакая модель не уберёт.

Двигайте сложность на фигуре. С ростом сложности смещение² (зелёное) падает, но дисперсия (коралловая) растёт. Полная ошибка теста (чёрная) — их сумма плюс уровень шума: U-форма, чьё дно — оптимальная сложность.

Где это встречается в MLЭто разложение и есть теория недообучения против переобучения, и так читается кривая обучения. Высокая ошибка обучения и теста = высокое смещение = недообучение (больше модель). Низкая ошибка обучения, но высокая теста = высокая дисперсия = переобучение (регуляризуйте, больше данных, упростите). Выбор сложности модели — буквально поиск дна этой U.