데이터로부터의 추론, 추정, 의사결정
분류기 두 개를 만들었는데 하나는 91.0%, 다른 하나는 91.4%의 정확도를 냈습니다. 두 번째가 정말로 더 나은 걸까요, 아니면 그저 운 좋은 테스트 세트를 만난 걸까요? 이것을 엄밀하게 답하는 것이 ML을 위한 통계 검정으로, 모델 비교의 특수한 사정에 맞춰 다듬은 가설 검정입니다.
겹별 정확도에 그냥 t-검정을 돌리는 순진한 방법에는 결함이 있습니다. 교차 검증의 겹들이 훈련 데이터를 공유하기 때문에 t-검정이 전제하는 독립성을 위반하기 때문이지요. 그 결과 검정이 과신하게 되어 위양성이 부풀려집니다. ML 환경을 정직하게 다루는 더 나은 도구가 셋 있습니다.
맥네마 검정은 같은 테스트 세트에서 두 분류기를 비교하되, 두 분류기의 판단이 엇갈리는 예시만 들여다봅니다. 짝지어진 예측에 대해 정확히 올바른 질문이지요. 부트스트랩은 테스트 세트를 복원 추출로 여러 번 재표집하여 정확도의 신뢰 구간을 곧바로 만들어 내며, 수식이 따로 필요 없습니다. 보정된 대응 t-검정은 CV 겹들 사이의 중복을 고려해 분산을 조정함으로써 순진한 버전의 과신을 되돌립니다.