בדיקות מרובות — סטטיסטיקה · Mathematics for Machine Learning

הרץ מבחן אחד ב־α = 0.05 ויש לך 5% סיכוי לחיובי שגוי. הרץ עשרים מבחנים בלתי תלויים, וגם אם שום דבר אינו אמיתי, סביר שתקבל לפחות תוצאה "מובהקת" אחת בזכות מזל בלבד. זוהי בעיית הבדיקות המרובות, והיא משחיתה בשקט כמות עצומה של מחקר ושל ניסויי ML.

הסיכוי ללפחות חיובי שגוי אחד על פני m מבחנים, שיעור השגיאה המשפחתי, מתנפח: עם m מבחנים בלתי תלויים ברמת α הוא 1 − (1 − α)m. עבור m = 20, α = 0.05, זה בערך 64%, סביר יותר מאשר לא למצוא אפקט מדומה.

קנו כרטיס לוטו בודד והסיכויים שלכם לזכות זעירים. קנו אלף ואחד מהם עשוי "לזכות" במשהו אך ורק במקרה, למרות שאין לכם תובנה מיוחדת כלל. הרצת בדיקות סטטיסטיות רבות היא אותו הימור: עם מספיק ניסיונות, מזל חריג חסר משמעות יחצה בסופו של דבר את קו המובהקות ויתחזה לתגלית אמיתית.

איפה זה ב־MLבדיקות מרובות הן רוצח שקט של קפדנות ב־ML. חיפוש היפר־פרמטרים על פני 100 תצורות, מחקר ablation עם עשרות וריאציות, או חבילת benchmark עם 50 משימות: כל אחד מהם הוא מטח של מבחנים מובלעים. בחירת "התצורה שניצחה על קבוצת האימות" ללא תיקון היא בדיקות מרובות בקנה מידה גדול, וזו הסיבה לכך שכל כך הרבה שיפורים מדווחים מתאדים על קבוצת מבחן טרייה.