אבחון מודל — סטטיסטיקה · Mathematics for Machine Learning

התאמת רגרסיה היא החלק הקל. השאלה הקשה יותר היא אם אפשר לסמוך עליה. אבחון מודל הוא אוסף הבדיקות שתופסות מודל שמתאים למספרים אך מפר את ההנחות שמתחתיו. האובייקט השימושי ביותר להתבונן בו הוא השארית: e = y − ŷ, כלומר מה שהמודל לא הצליח להסביר.

אם המודל נכון, השאריות צריכות להיראות כמו רעש טהור: ללא תבנית, בפיזור קבוע ובערך סימטריות. הכלי המרכזי הוא גרף שאריות: השאריות על ציר ה־y מול הערכים החזויים (או קלט כלשהו) על ציר ה־x. אתה מחפש מבנה שלא אמור להיות שם.

רופא טוב אינו עוצר במתן שם למחלה; הוא בודק אילו תסמינים נותרו לאחר הטיפול. אם לחולה עדיין יש שיעול עיקש, האבחנה פספסה משהו. שאריות הן התסמינים הנותרים של מודל: החלק של הנתונים שהקו המותאם לא יכול היה להסביר. אם הן מראות תבנית ברורה במקום רעש אקראי בלתי מזיק, המודל פספס משהו גם כן.

איפה זה ב־MLניתוח שאריות הוא האב הסטטיסטי של עקומות למידה וניתוח שגיאות ב־ML. "שגיאת אימון ≠ שגיאת ולידציה" היא אבחון: פער גדול מסמן התאמת־יתר (שונות גבוהה), בדיוק כפי ששאריות בעלות תבנית מסמנות מודל שגוי. פירוק השגיאות שלך לפי תת־קבוצות כדי לאתר היכן המודל נכשל באופן שיטתי הוא בדיוק חשיבה של גרף שאריות, בקנה מידה גדול.