Inferensi, estimasi, dan pengambilan keputusan dari data
Anda membangun dua klasifier dan satu mencetak akurasi 91.0%, yang lain 91.4%. Apakah yang kedua benar-benar lebih baik, atau hanya dapat set tes lebih beruntung? Menjawab ini secara rigor adalah pengujian statistik untuk ML: pengujian hipotesis diadaptasi ke kekhasan perbandingan model.
Langkah naif, t-test polos pada akurasi per-fold, cacat, karena fold cross-validation berbagi data pelatihan sehingga melanggar independensi yang diasumsikan t-test. Ini membuat uji terlalu percaya diri, menggelembungkan false positive. Tiga alat lebih baik menangani setting ML dengan jujur.
Uji McNemar membandingkan dua klasifier pada set tes sama dengan hanya melihat contoh di mana mereka tidak setuju, persis pertanyaan tepat untuk prediksi berpasangan. Bootstrap menyampel ulang set tes dengan penggantian berkali-kali untuk membangun interval kepercayaan untuk akurasi langsung, tanpa formula. t-test berpasangan terkoreksi menyesuaikan varians untuk memperhitungkan tumpang tindih antara fold CV, membatalkan kepercayaan-diri berlebih versi naif.