데이터로부터의 추론, 추정, 의사결정
α = 0.05로 검정을 한 번 하면 거짓 양성이 나올 확률이 5%입니다. 그런데 독립적인 검정을 스무 번 한다면, 실제로는 아무것도 없더라도 순전히 운으로 적어도 하나의 «유의한» 결과가 나올 가능성이 큽니다. 이것이 다중 검정 문제로, 수많은 연구와 ML 실험을 조용히 오염시킵니다.
m개의 검정 가운데 적어도 하나에서 거짓 양성이 나올 확률, 즉 가족 단위 오류율은 부풀어 오릅니다. 유의 수준 α에서 m개의 독립 검정을 하면 그 확률은 1 − (1 − α)m입니다. m = 20, α = 0.05이면 약 64%로, 유령 같은 효과를 발견할 가능성이 그렇지 않을 가능성보다 더 큽니다.
복권을 한 장만 사면 당첨 확률은 아주 작습니다. 하지만 천 장을 사면 특별한 안목이 전혀 없더라도 순전히 우연으로 그 중 하나가 뭔가에 "당첨"될지도 모릅니다. 많은 통계 검정을 실행하는 것도 동일한 도박입니다: 충분히 많이 시도하면, 의미 없는 요행이 결국 유의수준 선을 넘어서 실제 발견인 것처럼 가장하게 될 것입니다.