ML을 위한 통계 검정

데이터로부터의 추론, 추정, 의사결정

분류기 두 개를 만들었는데 하나는 91.0%, 다른 하나는 91.4%의 정확도를 냈습니다. 두 번째가 정말로 더 나은 걸까요, 아니면 그저 운 좋은 테스트 세트를 만난 걸까요? 이것을 엄밀하게 답하는 것이 ML을 위한 통계 검정으로, 모델 비교의 특수한 사정에 맞춰 다듬은 가설 검정입니다.

겹별 정확도에 그냥 t-검정을 돌리는 순진한 방법에는 결함이 있습니다. 교차 검증의 겹들이 훈련 데이터를 공유하기 때문에 t-검정이 전제하는 독립성을 위반하기 때문이지요. 그 결과 검정이 과신하게 되어 위양성이 부풀려집니다. ML 환경을 정직하게 다루는 더 나은 도구가 셋 있습니다.

맥네마 검정은 같은 테스트 세트에서 두 분류기를 비교하되, 두 분류기의 판단이 엇갈리는 예시만 들여다봅니다. 짝지어진 예측에 대해 정확히 올바른 질문이지요. 부트스트랩은 테스트 세트를 복원 추출로 여러 번 재표집하여 정확도의 신뢰 구간을 곧바로 만들어 내며, 수식이 따로 필요 없습니다. 보정된 대응 t-검정은 CV 겹들 사이의 중복을 고려해 분산을 조정함으로써 순진한 버전의 과신을 되돌립니다.

머신러닝에서의 위치이런 엄밀함이야말로 진짜 결과와 리더보드의 잡음을 가르는 기준입니다. 모델 A가 B를 이겼다고 주장하기 전에 맥네마 검정(같은 테스트 세트)을 돌리거나 정확도 차이에 대한 부트스트랩 CI를 구하세요. 결과를 «91.2%»가 아니라 «91.2% ± 0.4%»로 보고하는 까닭은, 바로 독자가 눈으로 이런 종류의 검정을 그대로 적용할 수 있게 하기 위함입니다.

▶ ML을 위한 통계 검정

← 평가 메트릭 생성 vs 판별 →