מדדי הערכה — סטטיסטיקה · Mathematics for Machine Learning

"דיוק" נשמע כמו הדרך המובנת מאליה לתת ציון למסווג — עד שהוא משקר לך. המדד הנכון תלוי לחלוטין במשימה ובעלות של סוגי הטעויות השונים. התחל במטריצת הבלבול: ספירות של חיוביים אמיתיים (TP), חיוביים שגויים (FP), שליליים אמיתיים (TN), ושליליים שגויים (FN). כל מדד בנוי מארבעת המספרים האלה.

שני מדדים משלימים. Precision = TP/(TP+FP) שואל "מבין מה שסימנתי כחיובי, כמה באמת היו חיוביים?" Recall = TP/(TP+FN) שואל "מבין החיוביים שבפועל, כמה תפסתי?"

ביניהם יש פשרה: סמן הכול וה־recall יגיע ל־1 אבל ה־precision יקרוס; סמן רק את המקרים הבטוחים ביותר וה־precision ימריא בעוד ה־recall יורד. ציון F1 מאזן ביניהם כממוצע הרמוני:

איפה זה ב־MLבחירת המדד השגוי משבשת בשקט פרויקטי ML. אופטימיזציה של דיוק על נתונים לא מאוזנים מייצרת מודל שמתעלם מהמחלקה שבאמת חשובה לך. המדד שאתה ממטב הוא ההתנהגות שתקבל, ולכן הגדר הצלחה באמצעות precision/recall/F1/AUC לפני שאתה מאמן, מותאם לעלות בעולם האמיתי של חיוביים שגויים מול שליליים שגויים.