बहु परीक्षण — सांख्यिकी

डेटा से अनुमान, आकलन और निर्णय निर्माण

एक परीक्षण α = 0.05 पर चलाएँ और आपको 5% गलत सकारात्मक की संभावना। बीस स्वतंत्र परीक्षण चलाएँ और, भले ही कुछ वास्तविक नहीं, आपको शायद कम से कम एक "सार्थक" परिणाम शुद्ध भाग्य से। यह बहु परीक्षण समस्या, और यह चुपचाप बड़ी मात्रा में शोध और ML प्रयोग को भ्रष्ट।

m परीक्षणों पर कम से कम एक गलत सकारात्मक की संभावना, परिवार-वार त्रुटि दर, फूलती: m स्वतंत्र परीक्षण स्तर α पर यह 1 − (1 − α)m। m = 20, α = 0.05 के लिए, लगभग 64%, एक भ्रामक प्रभाव खोजना संभावना से अधिक।

एक लॉटरी टिकट खरीदें और आपके जीतने की संभावना बहुत कम है। एक हज़ार खरीदें और उनमें से एक पूरी तरह से संयोग से कुछ "जीत" सकता है, भले ही आपके पास कोई विशेष अंतर्दृष्टि न हो। कई सांख्यिकीय परीक्षण चलाना एक ही जुआ है: पर्याप्त प्रयासों के साथ, एक अर्थहीन फ्लूक अंततः महत्व रेखा को पार कर जाएगा और एक वास्तविक खोज के रूप में सामने आएगा।

ML में इसका स्थानबहु परीक्षण ML कठोरता का एक शांत हत्यारा। 100 विन्यासों पर एक हाइपरपैरामीटर खोज, दर्जनों वेरिएंट के साथ एक अपवर्जन अध्ययन, या 50 कार्यों का एक बेंचमार्क सूट: प्रत्येक अंतर्निहित परीक्षणों की एक बौछार। "वह विन्यास जो सत्यापन समुच्चय पर जीता" बिना सुधार चुनना बहु बहु परीक्षण, और यही कारण बहुत सी रिपोर्ट की गई लाभ एक नए परीक्षण समुच्चय पर वाष्पीभूत।