الاختبارات المتعددة — الإحصاء

الاستدلال والتقدير واتخاذ القرار من البيانات

أجرِ اختباراً واحداً عند α = 0.05 ويكون لديك احتمال 5% لنتيجة موجبة كاذبة. أجرِ عشرين اختباراً مستقلاً، وحتى لو لم يكن شيء حقيقياً، فستحصل على الأرجح على نتيجة «ذات دلالة» واحدة على الأقل بمحض الحظ. هذه هي مشكلة الاختبارات المتعددة، وهي تفسد بصمت قدراً هائلاً من الأبحاث وتجارب ML.

احتمال نتيجة موجبة كاذبة واحدة على الأقل عبر m اختباراً، وهو معدل الخطأ على مستوى العائلة، يتضخّم: مع m اختباراً مستقلاً عند المستوى α يكون 1 − (1 − α)m. عند m = 20، α = 0.05، يساوي ذلك نحو 64%، أي أن احتمال العثور على تأثير وهمي أرجح من عدمه.

اشترِ تذكرة يانصيب واحدة وستكون احتمالات فوزك ضئيلة. اشترِ ألف تذكرة وقد "تفوز" إحداها بشيء ما عن طريق الصدفة البحتة، على الرغم من أنك لا تملك أي بصيرة خاصة على الإطلاق. إجراء العديد من الاختبارات الإحصائية هو نفس المقامرة: مع وجود عدد كافٍ من المحاولات، ستتجاوز صدفة لا معنى لها أخيرًا خط الدلالة الإحصائية وتتنكر في صورة اكتشاف حقيقي.

أين يظهر هذا في تعلّم الآلةالاختبارات المتعددة قاتل صامت لصرامة ML. بحث في المعاملات الفائقة عبر 100 تهيئة، أو دراسة استئصال بعشرات المتغيّرات، أو حزمة مقاييس بـ 50 مهمة: كل منها وابل من الاختبارات الضمنية. اختيار «التهيئة التي فازت على مجموعة التحقق» دون تصحيح هو اختبارات متعددة جماعية، وهذا هو السبب في أن الكثير من المكاسب المُبلَّغ عنها تتبخّر على مجموعة اختبار جديدة.