Inferentie, schatting en besluitvorming uit data
Waarom faalt een model dat de trainingsdata perfect past vaak op nieuwe data? De bias–variantie-decompositie geeft het exacte, kwantitatieve antwoord. Het splitst de verwachte voorspellingsfout van een model in drie delen, en twee daarvan trekken in tegengestelde richtingen.
Bias² is fout door verkeerde aannames: een model dat te eenvoudig is om de waarheid te vatten (underfitting). Variantie is fout door gevoeligheid voor de specifieke trainingssteekproef: een model dat zo flexibel is dat het ruis memoriseert (overfitting). Ruis is onherleidbaar: willekeur in de data die geen enkel model ooit kan verwijderen.
Verschuif de complexiteit in de figuur. Naarmate het model complexer wordt, daalt bias² (groen) maar stijgt de variantie (koraal). De totale testfout (zwart) is hun som plus de ruisvloer: een U-vorm waarvan de bodem de optimale complexiteit is.