مقاييس التقييم — الإحصاء · Mathematics for Machine Learning

الاستدلال والتقدير واتخاذ القرار من البيانات

تبدو "الدقة" الطريقة البديهية لتقييم مُصنِّف، حتى اللحظة التي تكذب عليك فيها. يعتمد مقياس التقييم الصحيح كلّيًا على المهمة وكلفة الأخطاء المختلفة. ابدأ بـ مصفوفة الالتباس: تعدادات الإيجابيات الصحيحة (TP)، والإيجابيات الزائفة (FP)، والسلبيات الصحيحة (TN)، والسلبيات الزائفة (FN). كل مقياس مبنيّ من هذه الأرقام الأربعة.

مقياسان متكاملان. الإحكام (Precision) = TP/(TP+FP) يسأل "من بين الأشياء التي وسمتُها إيجابية، كم منها كان إيجابيًا حقًا؟" والاستدعاء (Recall) = TP/(TP+FN) يسأل "من بين الإيجابيات الفعلية، كم منها التقطتُ؟"

يتقايضان: وسِم كل شيء فيصل الاستدعاء إلى 1 لكن ينهار الإحكام؛ وسِم الحالات الأكثر يقينًا فقط فيرتفع الإحكام بينما يهبط الاستدعاء. يوازن مقياس F1 بينهما بوصفه متوسطهما التوافقي:

أين يظهر هذا في تعلّم الآلةاختيار المقياس الخاطئ يُخرّب مشاريع تعلّم الآلة بصمت. تحسين الدقة على بيانات غير متوازنة يُنتج نموذجًا يتجاهل الصنف الذي تهتمّ به فعلًا. المقياس الذي تُحسّنه هو السلوك الذي تحصل عليه، فعرِّف النجاح بالإحكام/الاستدعاء/F1/AUC قبل أن تُدرّب، مطابقًا للكلفة الواقعية للإيجابيات الزائفة مقابل السلبيات الزائفة.