모수와 추정량 — 통계학 · Mathematics for Machine Learning

거의 모든 통계적 질문은 같은 형태를 띱니다. 세상 어딘가에 우리가 볼 수 없는 진짜 숫자, 즉 모수 θ(진짜 평균, 진짜 성공 확률 등)가 있습니다. 우리에게 주어진 것은 유한한 데이터 표본뿐입니다. 그 데이터로부터 우리는 하나의 추측, 즉 추정량 θ̂을 계산합니다. 추정이란 좋은 추측을 만들어 내고 그것을 얼마나 믿어야 할지 아는 기술입니다.

데이터가 무작위이므로 θ̂ 자체도 무작위입니다. 실험을 다시 하면 다른 θ̂이 나옵니다. 우리는 추정량을 두 가지로 판단합니다. 편향(θ̂이 평균적으로 θ에 도달하는가?)과 분산(표본마다 얼마나 튀는가?)입니다.

간을 보기 위해 수프 한 냄비를 다 마실 수는 없으므로, 잘 저은 후 한 숟가락을 맛봅니다. 냄비 전체의 실제 짠맛은 직접 볼 수 없는 매개변수 θ입니다; 여러분 숟가락의 짠맛은 추정량 θ̂입니다. 먼저 철저히 저으면 단 한 숟가락이 전체 냄비를 놀랍도록 잘 추정합니다 — 그 젓는 행동이 표본을 대표성 있게 만듭니다.

머신러닝에서의 위치과소적합과 과적합은 바로 이 트레이드오프입니다. 모델의 매개변수는 유한한 훈련 데이터로부터 적합된 θ̂입니다. 과소적합 = 높은 편향으로, 모델이 진실을 담아내기에 너무 단순한 경우입니다. 과적합 = 높은 분산으로, 모델이 너무 유연해서 특정 훈련 표본을 통째로 외워 버리는 경우입니다. 이때 새 표본을 주면 완전히 다른 매개변수가 나옵니다. 모델 복잡도를 고르는 일은 곧 이 트레이드오프 위에서 한 점을 고르는 일입니다.