편향-분산 분해 — 통계학 · Mathematics for Machine Learning

훈련 데이터에 완벽하게 맞춘 모델이 왜 새 데이터에서는 자주 실패할까요? 편향-분산 분해가 정확하고 정량적인 답을 줍니다. 이 분해는 모델의 기대 예측 오차를 세 조각으로 나누는데, 그중 둘은 서로 반대 방향으로 잡아당깁니다.

편향²은 잘못된 가정에서 비롯되는 오차로, 진실을 담아내기에 너무 단순한 모델(과소적합)에서 나타납니다. 분산은 특정 훈련 표본에 대한 민감성에서 비롯되는 오차로, 너무 유연해서 잡음을 암기해 버리는 모델(과적합)에서 나타납니다. 잡음은 줄일 수 없는 부분으로, 어떤 모델로도 제거할 수 없는 데이터 자체의 무작위성입니다.

그림에서 복잡도를 미끄러뜨려 보세요. 모델이 복잡해질수록 편향²(녹색)은 떨어지지만 분산(산호색)은 올라갑니다. 전체 테스트 오차(검은색)는 이 둘의 합에 잡음 바닥을 더한 것이라, U자 형태를 이루며 그 바닥이 최적 복잡도입니다.

머신러닝에서의 위치이 분해가 곧 과소적합 대 과적합의 이론이며, 학습 곡선을 읽는 방법이기도 합니다. 훈련 오차와 테스트 오차가 둘 다 높으면 높은 편향 = 과소적합이므로 더 큰 모델을 쓰세요. 훈련 오차는 낮은데 테스트 오차가 높으면 높은 분산 = 과적합이므로 정규화하거나, 데이터를 더 모으거나, 단순화하세요. 모델 복잡도를 고르는 일은 말 그대로 이 U자의 바닥을 찾는 것입니다.