الاستدلال والتقدير واتخاذ القرار من البيانات
أجرِ اختباراً واحداً عند α = 0.05 ويكون لديك احتمال 5% لنتيجة موجبة كاذبة. أجرِ عشرين اختباراً مستقلاً، وحتى لو لم يكن شيء حقيقياً، فستحصل على الأرجح على نتيجة «ذات دلالة» واحدة على الأقل بمحض الحظ. هذه هي مشكلة الاختبارات المتعددة، وهي تفسد بصمت قدراً هائلاً من الأبحاث وتجارب ML.
احتمال نتيجة موجبة كاذبة واحدة على الأقل عبر m اختباراً، وهو معدل الخطأ على مستوى العائلة، يتضخّم: مع m اختباراً مستقلاً عند المستوى α يكون 1 − (1 − α)m. عند m = 20، α = 0.05، يساوي ذلك نحو 64%، أي أن احتمال العثور على تأثير وهمي أرجح من عدمه.
اشترِ تذكرة يانصيب واحدة وستكون احتمالات فوزك ضئيلة. اشترِ ألف تذكرة وقد "تفوز" إحداها بشيء ما عن طريق الصدفة البحتة، على الرغم من أنك لا تملك أي بصيرة خاصة على الإطلاق. إجراء العديد من الاختبارات الإحصائية هو نفس المقامرة: مع وجود عدد كافٍ من المحاولات، ستتجاوز صدفة لا معنى لها أخيرًا خط الدلالة الإحصائية وتتنكر في صورة اكتشاف حقيقي.