הסקה, אומדן וקבלת החלטות מנתונים
בנית שני מסווגים, ואחד מהם משיג 91.0% דיוק והשני 91.4%. האם השני באמת טוב יותר, או שפשוט נפל בחלקו מערך מבחן בר־מזל יותר? מתן מענה קפדני לכך הוא בדיקה סטטיסטית ל־ML: בדיקת השערות המותאמת למוזרויות של השוואת מודלים.
המהלך הנאיבי — מבחן t רגיל על הדיוקים לפי קיפול — פגום, מפני שקיפולי הקרוס־ולידציה חולקים נתוני אימון ולכן מפרים את הנחת העצמאות שמבחן t מניח. הדבר הופך את המבחן לבטוח־יתר ומנפח את שיעור החיוביים השגויים. שלושה כלים טובים יותר מטפלים במצב של ML בהגינות.
מבחן מקנמר משווה שני מסווגים על אותו מערך מבחן בכך שהוא מתבונן רק בדוגמאות שבהן הם חלוקים — בדיוק השאלה הנכונה לחיזויים מזוּוגים. הbootstrap דוגם מחדש את מערך המבחן עם החזרה פעמים רבות כדי לבנות רווח סמך לדיוק ישירות, ללא נוסחה. מבחן t מזוּוג מתוקן מתאים את אומדן השונות כדי להתחשב בחפיפה בין קיפולי ה־CV, ובכך מבטל את הביטחון־היתר של הגרסה הנאיבית.