בדיקות סטטיסטיות ל־ML

הסקה, אומדן וקבלת החלטות מנתונים

בנית שני מסווגים, ואחד מהם משיג 91.0% דיוק והשני 91.4%. האם השני באמת טוב יותר, או שפשוט נפל בחלקו מערך מבחן בר־מזל יותר? מתן מענה קפדני לכך הוא בדיקה סטטיסטית ל־ML: בדיקת השערות המותאמת למוזרויות של השוואת מודלים.

המהלך הנאיבי — מבחן t רגיל על הדיוקים לפי קיפול — פגום, מפני שקיפולי הקרוס־ולידציה חולקים נתוני אימון ולכן מפרים את הנחת העצמאות שמבחן t מניח. הדבר הופך את המבחן לבטוח־יתר ומנפח את שיעור החיוביים השגויים. שלושה כלים טובים יותר מטפלים במצב של ML בהגינות.

מבחן מקנמר משווה שני מסווגים על אותו מערך מבחן בכך שהוא מתבונן רק בדוגמאות שבהן הם חלוקים — בדיוק השאלה הנכונה לחיזויים מזוּוגים. הbootstrap דוגם מחדש את מערך המבחן עם החזרה פעמים רבות כדי לבנות רווח סמך לדיוק ישירות, ללא נוסחה. מבחן t מזוּוג מתוקן מתאים את אומדן השונות כדי להתחשב בחפיפה בין קיפולי ה־CV, ובכך מבטל את הביטחון־היתר של הגרסה הנאיבית.

איפה זה ב־MLקפדנות מסוג זה היא מה שמפריד תוצאה אמיתית מרעש של טבלת מובילים. לפני שאתה טוען שמודל A מנצח את מודל B, הרץ מבחן מקנמר (אותו מערך מבחן) או bootstrap CI על פער הדיוק. כל הסיבה שתוצאה מדווחת כ"91.2% ± 0.4%" ולא רק כ"91.2%" היא כדי שהקורא יוכל להחיל בעין בדיוק מבחן כזה.

▶ בדיקות סטטיסטיות ל־ML

← מדדי הערכה גנרטיבי מול דיסקרימינטיבי →