Çoklu Test

Inference, estimation, and decision-making from data

α = 0.05 ile tek bir test yapın ve yanlış pozitif şansınız %5 olsun. Yirmi bağımsız test yapın ve gerçek hiçbir şey olmasa bile, salt şans eseri muhtemelen en az bir "anlamlı" sonuç elde edersiniz. Bu, çoklu test problemidir ve çok miktarda araştırmayı ve ML deneyselliğini sessizce bozar.

m test arasında en az bir yanlış pozitif şansı, aile bazında hata oranı, balon gibi şişer: α düzeyinde m bağımsız testle bu 1 − (1 − α)m'dir. m = 20, α = 0.05 için bu yaklaşık %64'tür, hayalet bir etki bulmak bulmamaktan daha olasıdır.

Tek bir piyango bileti alın, kazanma şansınız çok küçüktür. Bin tane alın ve hiçbir özel içgörünüz olmamasına rağmen içlerinden biri tamamen şans eseri bir şey "kazanabilir". Birçok istatistiksel test yapmak aynı kumardır: yeterli denemeyle, anlamsız bir tesadüf eninde sonunda anlamlılık sınırını aşacak ve gerçek bir keşifmiş gibi kılık değiştirecektir.

Bunun ML'deki yeriÇoklu test, ML titizliğinin sessiz bir katilidir. 100 yapılandırma üzerinde bir hiperparametre araması, onlarca varyantlı bir ablasyon çalışması veya 50 görevli bir kıyaslama paketi: her biri bir örtük test barajıdır. "Doğrulama kümesinde kazanan yapılandırmayı" düzeltme olmadan seçmek toplu çoklu testtir ve bildirilen kazanımların çoğunun taze bir test kümesinde buharlaşmasının nedeni budur.

▶ Çoklu Test

← t-testi Parametrik Olmayan Testler →