다중 검정 — 통계학 · Mathematics for Machine Learning

α = 0.05로 검정을 한 번 하면 거짓 양성이 나올 확률이 5%입니다. 그런데 독립적인 검정을 스무 번 한다면, 실제로는 아무것도 없더라도 순전히 운으로 적어도 하나의 «유의한» 결과가 나올 가능성이 큽니다. 이것이 다중 검정 문제로, 수많은 연구와 ML 실험을 조용히 오염시킵니다.

m개의 검정 가운데 적어도 하나에서 거짓 양성이 나올 확률, 즉 가족 단위 오류율은 부풀어 오릅니다. 유의 수준 α에서 m개의 독립 검정을 하면 그 확률은 1 − (1 − α)m입니다. m = 20, α = 0.05이면 약 64%로, 유령 같은 효과를 발견할 가능성이 그렇지 않을 가능성보다 더 큽니다.

복권을 한 장만 사면 당첨 확률은 아주 작습니다. 하지만 천 장을 사면 특별한 안목이 전혀 없더라도 순전히 우연으로 그 중 하나가 뭔가에 "당첨"될지도 모릅니다. 많은 통계 검정을 실행하는 것도 동일한 도박입니다: 충분히 많이 시도하면, 의미 없는 요행이 결국 유의수준 선을 넘어서 실제 발견인 것처럼 가장하게 될 것입니다.

머신러닝에서의 위치다중 검정은 ML의 엄밀성을 조용히 무너뜨리는 살인자입니다. 100개 구성에 대한 하이퍼파라미터 탐색, 수십 가지 변형을 다루는 절제 연구, 50개 과제로 이루어진 벤치마크 모음 — 이들은 각각 암묵적 검정의 폭격입니다. 보정 없이 «검증 세트에서 이긴 구성»을 고르는 것은 대규모 다중 검정이며, 보고된 이득이 새 테스트 세트에서 증발해 버리는 이유가 바로 이것입니다.