Вывод, оценивание и принятие решений по данным
Почему модель, идеально подгоняющая обучающие данные, часто проваливается на новых? Разложение смещения и дисперсии даёт точный количественный ответ. Оно расщепляет ожидаемую ошибку предсказания на три части, две из которых тянут в противоположные стороны.
Смещение² — ошибка от неверных предположений: модель слишком проста для истины (недообучение). Дисперсия — ошибка от чувствительности к конкретной обучающей выборке: модель настолько гибка, что запоминает шум (переобучение). Шум — несократимый: случайность в данных, которую никакая модель не уберёт.
Двигайте сложность на фигуре. С ростом сложности смещение² (зелёное) падает, но дисперсия (коралловая) растёт. Полная ошибка теста (чёрная) — их сумма плюс уровень шума: U-форма, чьё дно — оптимальная сложность.