p-değerleri

Inference, estimation, and decision-making from data

p-değeri, "test istatistiğim ne kadar aşırı?" sorusunu tek bir sayıya dönüştürür. H₀'ın doğru olduğunu varsayarak, sizinkinden en az o kadar aşırı bir veri görme olasılığıdır. Çok küçük bir p-değeri "gerçekten hiçbir etki yoksa bu veri çok şaşırtıcı olurdu" anlamına gelir ki bu, H₀'a karşı bir kanıttır.

Karar kuralı mekaniktir: önceden bir eşik α seçin (yaygın olarak 0.05), ardından eğer p < α ise H₀'ı reddedin. Küçük bir p, H₁'i kanıtlamaz; yalnızca boş hipotezin veriyi kötü açıkladığını söyler.

Bir p-değeri bir şans eseri kontrolüdür: eğer gerçekten hiçbir şey olmasaydı, sizinki gibi bir sonuç ne kadar şaşırtıcı olurdu? Diyelim ki bir arkadaşınız adil bir parası olduğunu iddia ediyor ancak arka arkaya dokuz tura atıyor — bir p-değeri, sıkıcı 'bu adil' hikayesi H₀ altında bu serinin ne kadar nadir olacağına bir sayı koyar. Sayı ne kadar küçükse, sonucu şans diyerek geçiştirmek o kadar zordur.

Bunun ML'deki yeriML'de bir p-değeri, A modelinin B modeli üzerindeki kıyaslamadaki üstünlüğünün sinyal mi yoksa gürültü mü olduğunu söyler. Ama tuzak gerçektir: dev bir test kümesiyle, %0.01'lik bir doğruluk kazancı 'anlamlı' olabilir ama pratikte tamamen anlamsızdır. Ve p < 0.05'i geçen biri bulunana kadar yapılandırmaları denemek olan p-hacking, liderlik tablolarının yeniden üretilemeyen sonuçlarla dolmasının…
▶ p-değerleri
← Çerçevet-testi →