הסקה, אומדן וקבלת החלטות מנתונים
"דיוק" נשמע כמו הדרך המובנת מאליה לתת ציון למסווג — עד שהוא משקר לך. המדד הנכון תלוי לחלוטין במשימה ובעלות של סוגי הטעויות השונים. התחל במטריצת הבלבול: ספירות של חיוביים אמיתיים (TP), חיוביים שגויים (FP), שליליים אמיתיים (TN), ושליליים שגויים (FN). כל מדד בנוי מארבעת המספרים האלה.
שני מדדים משלימים. Precision = TP/(TP+FP) שואל "מבין מה שסימנתי כחיובי, כמה באמת היו חיוביים?" Recall = TP/(TP+FN) שואל "מבין החיוביים שבפועל, כמה תפסתי?"
ביניהם יש פשרה: סמן הכול וה־recall יגיע ל־1 אבל ה־precision יקרוס; סמן רק את המקרים הבטוחים ביותר וה־precision ימריא בעוד ה־recall יורד. ציון F1 מאזן ביניהם כממוצע הרמוני: