데이터로부터의 추론, 추정, 의사결정
훈련 데이터에 완벽하게 맞춘 모델이 왜 새 데이터에서는 자주 실패할까요? 편향-분산 분해가 정확하고 정량적인 답을 줍니다. 이 분해는 모델의 기대 예측 오차를 세 조각으로 나누는데, 그중 둘은 서로 반대 방향으로 잡아당깁니다.
편향²은 잘못된 가정에서 비롯되는 오차로, 진실을 담아내기에 너무 단순한 모델(과소적합)에서 나타납니다. 분산은 특정 훈련 표본에 대한 민감성에서 비롯되는 오차로, 너무 유연해서 잡음을 암기해 버리는 모델(과적합)에서 나타납니다. 잡음은 줄일 수 없는 부분으로, 어떤 모델로도 제거할 수 없는 데이터 자체의 무작위성입니다.
그림에서 복잡도를 미끄러뜨려 보세요. 모델이 복잡해질수록 편향²(녹색)은 떨어지지만 분산(산호색)은 올라갑니다. 전체 테스트 오차(검은색)는 이 둘의 합에 잡음 바닥을 더한 것이라, U자 형태를 이루며 그 바닥이 최적 복잡도입니다.