ML için İstatistiksel Test

Inference, estimation, and decision-making from data

İki sınıflandırıcı kurdunuz; biri %91.0 doğruluk, diğeri %91.4 alıyor. İkincisi gerçekten daha mı iyi, yoksa sadece daha şanslı bir test kümesi mi denk geldi? Bunu titizce yanıtlamak ML için istatistiksel testtir: model karşılaştırmasının kendine has tuhaflıklarına uyarlanmış hipotez testi.

Saf hamle, katman başına doğruluklar üzerinde düz bir t-testi, kusurludur; çünkü çapraz doğrulama katmanları eğitim verisini paylaşır ve böylece t-testinin varsaydığı bağımsızlığı çiğner. Bu, testi aşırı özgüvenli yapar ve yanlış pozitifleri şişirir. Üç daha iyi araç, ML durumunu dürüstçe ele alır.

McNemar testi, iki sınıflandırıcıyı aynı test kümesinde, yalnızca anlaşmazlığa düştükleri örneklere bakarak karşılaştırır; eşlenmiş tahminler için tam da doğru soru budur. Bootstrap, test kümesini yerine koyarak birçok kez yeniden örnekleyip doğruluk için doğrudan bir güven aralığı kurar, hiçbir formül gerekmez. Düzeltilmiş eşli t-testi, ÇD katmanları arasındaki örtüşmeyi hesaba katmak için varyansı ayarlayarak saf sürümün aşırı özgüvenini geri alır.

Bunun ML'deki yeriBu tür bir titizlik, gerçek bir sonucu lider tablosu gürültüsünden ayıran şeydir. A modelinin B modelini yendiğini iddia etmeden önce, doğruluk farkı üzerinde McNemar testi (aynı test kümesi) ya da bir bootstrap GA çalıştırın. Bir sonucun sadece "%91.2" yerine "%91.2 ± %0.4" olarak bildirilmesinin tüm nedeni, bir okurun tam da bu tür bir testi gözle uygulayabilmesidir.
▶ ML için İstatistiksel Test
← Değerlendirme MetrikleriÜretici ve Ayırt Edici →