הסקה, אומדן וקבלת החלטות מנתונים
מדוע מודל שמתאים את נתוני האימון באופן מושלם נכשל לעיתים קרובות על נתונים חדשים? פירוק הטיה־שונות נותן את התשובה המדויקת והכמותית. הוא מפצל את שגיאת החיזוי הצפויה של מודל לשלושה רכיבים, ושניים מהם מושכים לכיוונים מנוגדים.
Bias² היא שגיאה הנובעת מהנחות שגויות: מודל פשוט מכדי לתפוס את האמת (תת־התאמה). שונות היא שגיאה הנובעת מרגישות למדגם האימון הספציפי: מודל כה גמיש עד שהוא משנן את הרעש (התאמת־יתר). רעש הוא הרכיב הבלתי־ניתן לצמצום: אקראיות בנתונים שאף מודל אינו יכול להסיר.
הזז את המורכבות באיור. ככל שהמודל מורכב יותר, Bias² (ירוק) יורד אך השונות (אלמוג) עולה. סך שגיאת המבחן (שחור) הוא סכומם בתוספת רצפת הרעש: צורת U שתחתיתה היא המורכבות האופטימלית.