Metrik Evaluasi

Inferensi, estimasi, dan pengambilan keputusan dari data

"Akurasi" terdengar seperti cara jelas menilai klasifier, tepat saat ia berbohong pada Anda. Metrik evaluasi yang tepat sepenuhnya bergantung pada tugas dan biaya kesalahan berbeda. Mulai dengan confusion matrix: hitungan true positive (TP), false positive (FP), true negative (TN), dan false negative (FN). Setiap metrik dibangun dari empat angka ini.

Dua metrik komplementer. Precision = TP/(TP+FP) bertanya "dari hal yang saya tandai positif, berapa yang benar-benar positif?" Recall = TP/(TP+FN) bertanya "dari positif sebenarnya, berapa yang saya tangkap?"

Mereka trade off: tandai semua dan recall mencapai 1 tapi precision jatuh; tandai hanya kasus paling pasti dan precision melonjak sementara recall turun. Skor F1 menyeimbangkan keduanya sebagai rata-rata harmonik:

Di mana ini berlaku dalam MLMemilih metrik salah diam-diam merusak proyek ML. Mengoptimalkan akurasi pada data tidak-seimbang menghasilkan model yang mengabaikan kelas yang sebenarnya Anda peduli. Metrik yang Anda optimalkan adalah perilaku yang Anda dapat, jadi definisikan sukses dengan precision/recall/F1/AUC sebelum Anda melatih, dicocokkan ke biaya real-world false positive vs false negative.

▶ Metrik Evaluasi

← Cross-Validation Pengujian Statistik untuk ML →