Pengujian Statistik untuk ML

Inferensi, estimasi, dan pengambilan keputusan dari data

Anda membangun dua klasifier dan satu mencetak akurasi 91.0%, yang lain 91.4%. Apakah yang kedua benar-benar lebih baik, atau hanya dapat set tes lebih beruntung? Menjawab ini secara rigor adalah pengujian statistik untuk ML: pengujian hipotesis diadaptasi ke kekhasan perbandingan model.

Langkah naif, t-test polos pada akurasi per-fold, cacat, karena fold cross-validation berbagi data pelatihan sehingga melanggar independensi yang diasumsikan t-test. Ini membuat uji terlalu percaya diri, menggelembungkan false positive. Tiga alat lebih baik menangani setting ML dengan jujur.

Uji McNemar membandingkan dua klasifier pada set tes sama dengan hanya melihat contoh di mana mereka tidak setuju, persis pertanyaan tepat untuk prediksi berpasangan. Bootstrap menyampel ulang set tes dengan penggantian berkali-kali untuk membangun interval kepercayaan untuk akurasi langsung, tanpa formula. t-test berpasangan terkoreksi menyesuaikan varians untuk memperhitungkan tumpang tindih antara fold CV, membatalkan kepercayaan-diri berlebih versi naif.

Di mana ini berlaku dalam MLRigor seperti ini yang memisahkan hasil nyata dari noise leaderboard. Sebelum mengklaim model A mengalahkan model B, jalankan uji McNemar (set tes sama) atau CI bootstrap pada celah akurasi. Seluruh alasan hasil dilaporkan sebagai "91.2% ± 0.4%" alih-alih sekadar "91.2%" adalah agar pembaca bisa menerapkan persis uji seperti ini secara visual.
▶ Pengujian Statistik untuk ML
← Metrik EvaluasiGeneratif vs Diskriminatif →