Pengujian Berganda

Inferensi, estimasi, dan pengambilan keputusan dari data

Jalankan satu uji pada α = 0.05 dan Anda punya peluang 5% false positive. Jalankan dua puluh uji independen dan, bahkan jika tidak ada yang nyata, Anda mungkin akan dapat setidaknya satu hasil "signifikan" secara keberuntungan murni. Ini masalah pengujian berganda, dan diam-diam merusak banyak penelitian dan eksperimen ML.

Peluang setidaknya satu false positive lintas m uji, tingkat galat family-wise, menggelembung: dengan m uji independen pada level α itu 1 − (1 − α)m. Untuk m = 20, α = 0.05, itu sekitar 64%, lebih mungkin daripada tidak untuk menemukan efek hantu.

Beli tiket lotre tunggal dan peluang Anda untuk menang adalah sangat kecil. Beli seribu tiket dan salah satunya mungkin "memenangkan" sesuatu murni secara kebetulan, meskipun Anda tidak memiliki wawasan khusus sama sekali. Menjalankan banyak uji statistik adalah pertaruhan yang sama: dengan percobaan yang cukup, suatu kebetulan yang tidak berarti pada akhirnya akan melewati garis signifikansi dan menyamar sebagai penemuan yang nyata.

Di mana ini berlaku dalam MLPengujian berganda adalah pembunuh senyap rigor ML. Pencarian hyperparameter atas 100 konfigurasi, studi ablation dengan lusinan varian, atau suite benchmark dengan 50 tugas: masing-masing adalah barrase uji implisit. Memilih "konfigurasi yang menang di set validasi" tanpa koreksi adalah pengujian berganda massal, dan mengapa banyak perbaikan yang dilaporkan menguap di set tes segar.

▶ Pengujian Berganda

← uji-t Uji Non-parametrik →