تفكيك الانحياز-التباين — الإحصاء

الاستدلال والتقدير واتخاذ القرار من البيانات

لماذا كثيرًا ما يفشل نموذج يلائم بيانات التدريب على نحو مثالي عند مواجهة بيانات جديدة؟ يُعطي تفكيك الانحياز-التباين الجواب الدقيق الكمّي. فهو يقسّم خطأ التنبؤ المتوقّع لنموذج إلى ثلاثة أجزاء، يَشدّ اثنان منها في اتجاهين متعاكسين.

الانحياز² هو خطأ ناتج عن افتراضات خاطئة: نموذج أبسط من أن يلتقط الحقيقة (تقصير في الملاءمة). التباين هو خطأ ناتج عن الحساسية تجاه عيّنة التدريب المعيّنة: نموذج مرن إلى حدّ أنه يحفظ الضوضاء (إفراط في الملاءمة). الضوضاء غير قابلة للاختزال: عشوائية في البيانات لا يستطيع أي نموذج إزالتها أبدًا.

حرّك التعقيد في الشكل. كلما ازداد النموذج تعقيدًا، انخفض الانحياز² (الأخضر) وارتفع التباين (المرجاني). الخطأ الكلي على الاختبار (الأسود) هو مجموعهما زائد أرضية الضوضاء: شكل حرف U يكون قاعه هو التعقيد الأمثل.

أين يظهر هذا في تعلّم الآلةهذا التفكيك هو نظرية التقصير مقابل الإفراط في الملاءمة، وهو الطريقة التي تقرأ بها منحنى تعلّم. خطأ تدريب و اختبار مرتفعان = انحياز عالٍ = تقصير في الملاءمة (استخدم نموذجًا أكبر). خطأ تدريب منخفض لكن اختبار مرتفع = تباين عالٍ = إفراط في الملاءمة (نظِّم، أو احصل على مزيد من البيانات، أو بسِّط). اختيار تعقيد النموذج هو حرفيًا إيجاد قاع حرف U هذا.