الاستدلال والتقدير واتخاذ القرار من البيانات
لماذا كثيرًا ما يفشل نموذج يلائم بيانات التدريب على نحو مثالي عند مواجهة بيانات جديدة؟ يُعطي تفكيك الانحياز-التباين الجواب الدقيق الكمّي. فهو يقسّم خطأ التنبؤ المتوقّع لنموذج إلى ثلاثة أجزاء، يَشدّ اثنان منها في اتجاهين متعاكسين.
الانحياز² هو خطأ ناتج عن افتراضات خاطئة: نموذج أبسط من أن يلتقط الحقيقة (تقصير في الملاءمة). التباين هو خطأ ناتج عن الحساسية تجاه عيّنة التدريب المعيّنة: نموذج مرن إلى حدّ أنه يحفظ الضوضاء (إفراط في الملاءمة). الضوضاء غير قابلة للاختزال: عشوائية في البيانات لا يستطيع أي نموذج إزالتها أبدًا.
حرّك التعقيد في الشكل. كلما ازداد النموذج تعقيدًا، انخفض الانحياز² (الأخضر) وارتفع التباين (المرجاني). الخطأ الكلي على الاختبار (الأسود) هو مجموعهما زائد أرضية الضوضاء: شكل حرف U يكون قاعه هو التعقيد الأمثل.