Inference, estimation, and decision-making from data
İki sınıflandırıcı kurdunuz; biri %91.0 doğruluk, diğeri %91.4 alıyor. İkincisi gerçekten daha mı iyi, yoksa sadece daha şanslı bir test kümesi mi denk geldi? Bunu titizce yanıtlamak ML için istatistiksel testtir: model karşılaştırmasının kendine has tuhaflıklarına uyarlanmış hipotez testi.
Saf hamle, katman başına doğruluklar üzerinde düz bir t-testi, kusurludur; çünkü çapraz doğrulama katmanları eğitim verisini paylaşır ve böylece t-testinin varsaydığı bağımsızlığı çiğner. Bu, testi aşırı özgüvenli yapar ve yanlış pozitifleri şişirir. Üç daha iyi araç, ML durumunu dürüstçe ele alır.
McNemar testi, iki sınıflandırıcıyı aynı test kümesinde, yalnızca anlaşmazlığa düştükleri örneklere bakarak karşılaştırır; eşlenmiş tahminler için tam da doğru soru budur. Bootstrap, test kümesini yerine koyarak birçok kez yeniden örnekleyip doğruluk için doğrudan bir güven aralığı kurar, hiçbir formül gerekmez. Düzeltilmiş eşli t-testi, ÇD katmanları arasındaki örtüşmeyi hesaba katmak için varyansı ayarlayarak saf sürümün aşırı özgüvenini geri alır.