الاستدلال والتقدير واتخاذ القرار من البيانات
بنيتَ مُصنِّفَين، يُحرز أحدهما دقة 91.0٪ والآخر 91.4٪. هل الثاني أفضل حقًا، أم أنه حصل فقط على مجموعة اختبار أكثر حظًا؟ الإجابة عن هذا بدقة هي الاختبار الإحصائي لتعلّم الآلة: اختبار الفرضيات مُكيَّفًا مع خصوصيات مقارنة النماذج.
الخطوة الساذجة، اختبار t بسيط على دقّات الطيّات، معيبة، لأن طيّات التحقق المتقاطع تتشارك بيانات التدريب ومن ثَمّ تنتهك الاستقلالية التي يفترضها اختبار t. وهذا يجعل الاختبار مفرطًا في الثقة، مُضخّمًا الإيجابيات الزائفة. تتعامل ثلاث أدوات أفضل مع وضع تعلّم الآلة بأمانة.
يقارن اختبار مكنيمار (McNemar) مُصنِّفَين على مجموعة الاختبار نفسها بالنظر فقط إلى الأمثلة التي يختلفان عليها، وهو بالضبط السؤال الصحيح للتنبؤات المزدوجة. وتُعيد إعادة الجمع (bootstrap) أخذ عيّنات مجموعة الاختبار مع الإحلال مرّات كثيرة لبناء مجال ثقة للدقة مباشرةً، دون حاجة إلى صيغة. ويُعدّل اختبار t المزدوج المُصحَّح التباين ليراعي التداخل بين طيّات التحقق المتقاطع، مُلغيًا فرط ثقة النسخة الساذجة.