الاختبار الإحصائي لتعلّم الآلة — الإحصاء

الاستدلال والتقدير واتخاذ القرار من البيانات

بنيتَ مُصنِّفَين، يُحرز أحدهما دقة 91.0٪ والآخر 91.4٪. هل الثاني أفضل حقًا، أم أنه حصل فقط على مجموعة اختبار أكثر حظًا؟ الإجابة عن هذا بدقة هي الاختبار الإحصائي لتعلّم الآلة: اختبار الفرضيات مُكيَّفًا مع خصوصيات مقارنة النماذج.

الخطوة الساذجة، اختبار t بسيط على دقّات الطيّات، معيبة، لأن طيّات التحقق المتقاطع تتشارك بيانات التدريب ومن ثَمّ تنتهك الاستقلالية التي يفترضها اختبار t. وهذا يجعل الاختبار مفرطًا في الثقة، مُضخّمًا الإيجابيات الزائفة. تتعامل ثلاث أدوات أفضل مع وضع تعلّم الآلة بأمانة.

يقارن اختبار مكنيمار (McNemar) مُصنِّفَين على مجموعة الاختبار نفسها بالنظر فقط إلى الأمثلة التي يختلفان عليها، وهو بالضبط السؤال الصحيح للتنبؤات المزدوجة. وتُعيد إعادة الجمع (bootstrap) أخذ عيّنات مجموعة الاختبار مع الإحلال مرّات كثيرة لبناء مجال ثقة للدقة مباشرةً، دون حاجة إلى صيغة. ويُعدّل اختبار t المزدوج المُصحَّح التباين ليراعي التداخل بين طيّات التحقق المتقاطع، مُلغيًا فرط ثقة النسخة الساذجة.

أين يظهر هذا في تعلّم الآلةهذا النوع من الدقة هو ما يفصل نتيجة حقيقية عن ضوضاء لوحة الصدارة. قبل أن تدّعي أن النموذج A يتفوّق على النموذج B، أجرِ اختبار مكنيمار (مجموعة الاختبار نفسها) أو مجال ثقة بإعادة الجمع على فجوة الدقة. السبب الكامل في الإبلاغ عن نتيجة بصيغة "91.2٪ ± 0.4٪" بدلًا من "91.2٪" فقط هو أن يستطيع القارئ تطبيق هذا النوع من الاختبار بالضبط بالنظر.