모델 진단

데이터로부터의 추론, 추정, 의사결정

회귀를 맞추는 것은 쉬운 부분입니다. 더 어려운 질문은 그 모델을 신뢰할 수 있느냐 하는 것입니다. 모델 진단은 숫자상으로는 잘 맞지만 그 밑바탕의 가정을 위반하는 모델을 잡아내는 점검입니다. 살펴보기에 가장 유용한 대상은 잔차로, e = y − ŷ, 즉 모델이 설명하지 못하고 남긴 부분입니다.

모델이 옳다면 잔차는 순수한 잡음처럼 보여야 합니다. 패턴이 없고, 퍼짐이 일정하며, 대략 대칭이어야 하지요. 주된 도구는 잔차 그림으로, y축에는 잔차를, x축에는 피팅 값(또는 입력)을 둡니다. 여기서 있어서는 안 될 구조를 찾아내는 것입니다.

좋은 의사는 질병의 이름을 짓는 데서 멈추지 않습니다; 그들은 치료 후 어떤 증상이 남아 있는지 확인합니다. 만약 환자에게 여전히 고집스러운 기침이 남아있다면 진단에서 무언가를 놓친 것입니다. 잔차는 모델의 남아있는 증상입니다: 적합선이 설명할 수 없는 데이터의 일부분입니다. 만약 그것들이 무해한 무작위 노이즈 대신 뚜렷한 패턴을 보인다면, 모델 역시 무언가를 놓친 것입니다.

머신러닝에서의 위치잔차 분석은 ML의 학습 곡선 및 오류 분석의 통계적 조상입니다. «훈련 손실 ≠ 검증 손실»도 하나의 진단입니다. 패턴화된 잔차가 잘못 지정된 모델을 알려 주듯, 큰 격차는 과적합(높은 분산)을 알려 줍니다. 모델이 체계적으로 실패하는 지점을 찾으려고 오류를 하위 그룹별로 나눠 보는 일이야말로 잔차 그림 사고를 그대로 확장한 것입니다.

▶ 모델 진단

← 다중 선형 회귀 정규화 회귀 →