Inferensi, estimasi, dan pengambilan keputusan dari data
"Akurasi" terdengar seperti cara jelas menilai klasifier, tepat saat ia berbohong pada Anda. Metrik evaluasi yang tepat sepenuhnya bergantung pada tugas dan biaya kesalahan berbeda. Mulai dengan confusion matrix: hitungan true positive (TP), false positive (FP), true negative (TN), dan false negative (FN). Setiap metrik dibangun dari empat angka ini.
Dua metrik komplementer. Precision = TP/(TP+FP) bertanya "dari hal yang saya tandai positif, berapa yang benar-benar positif?" Recall = TP/(TP+FN) bertanya "dari positif sebenarnya, berapa yang saya tangkap?"
Mereka trade off: tandai semua dan recall mencapai 1 tapi precision jatuh; tandai hanya kasus paling pasti dan precision melonjak sementara recall turun. Skor F1 menyeimbangkan keduanya sebagai rata-rata harmonik: