Декомпозиция на отклонение и дисперсия — Статистика

Защо модел, който пасва идеално на тренировъчните данни, често се проваля при нови данни? Декомпозицията отклонение-дисперсия (bias-variance decomposition) дава точния количествен отговор. Тя разделя очакваната грешка на прогнозиране на модела на три части, като две от тях се движат в противоположни посоки.

Bias² (Отклонението на квадрат) е грешка, породена от грешни допускания: моделът е твърде прост, за да улови истинската зависимост (недообучаване, underfitting). Дисперсията (Variance) е грешка от чувствителността към конкретната тренировъчна извадка: моделът е толкова гъвкав, че запаметява шума (преобучаване, overfitting). Шумът (Noise) е нередуцируем: това е произволността в данните, която нито един модел не може да премахне.

Плъзнете слайдера за сложност на фигурата. С увеличаването на сложността на модела, bias² (в зелено) намалява, но дисперсията (в коралово) нараства. Общата тестова грешка (в черно) е тяхната сума плюс нивото на шума: тя има U-образна форма, чието дъно съответства на оптималната сложност.

Къде се използва това в MLТази декомпозиция е самата теория зад недообучаването (underfitting) спрямо преобучаването (overfitting), и точно през тази призма трябва да се чете кривата на обучение (learning curve). Голяма грешка при обучение и при тест = голямо отклонение = недообучаване (използвайте по-голям модел). Ниска тренировъчна, но висока тестова грешка = висока дисперсия = преобучаване (добавете регуляризация,…