Dekompozycja obciążenie–wariancja

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Dlaczego model, który wprost idealnie dopasowuje się do danych treningowych, bardzo często zawodzi na zupełnie nowych danych? Dekompozycja obciążenie–wariancja (Bias-Variance Decomposition) dostarcza dokładnej, ilościowej odpowiedzi na to pytanie. Rozbija ona oczekiwany błąd predykcji na trzy składowe, z których dwie ciągną w przeciwnych do siebie kierunkach.

Obciążenie² (Bias²) to błąd wynikający z przyjęcia błędnych, zbyt rygorystycznych założeń: model jest zbyt prosty, by uchwycić prawdziwą naturę zjawiska (niedouczenie / underfitting). Wariancja to z kolei błąd wynikający ze zbyt wysokiej czułości na konkretną próbę treningową: model jest na tyle elastyczny, że po prostu zapamiętuje szum obecny w danych (przeuczenie / overfitting). Szum (Noise) to wreszcie element nieredukowalny (nieodwracalny): czysta losowość obecna w samych danych, której żaden model nigdy całkowicie nie usunie.

Przesuwaj wskaźnik złożoności na poniższym rysunku. Wraz z rosnącą złożonością modelu jego obciążenie² (kolor zielony) systematycznie spada, ale rośnie za to wariancja (kolor koralowy). Całkowity błąd testowy (kolor czarny) stanowi sumę tych dwóch elementów powiększoną o bazowy szum danych: daje to krzywą w kształcie litery U, której dno wyznacza zawsze punkt optymalnej złożoności.

Gdzie to występuje w MLZjawisko dekompozycji błędu jest bezpośrednim fundamentem teoretycznym tłumaczącym problem niedouczenia (underfitting) oraz przeuczenia (overfitting), a także tym, w jaki sposób powinieneś odczytywać wszelkie krzywe uczenia. Wysoki błąd treningowy oraz testowy = wysokie obciążenie = niedouczenie (sygnał, by użyć większego modelu). Z kolei niski błąd treningowy, ale wysoki testowy = wysoka…

▶ Dekompozycja obciążenie–wariancja

← Regresja regularyzowana Walidacja krzyżowa →