Kerangka

Inferensi, estimasi, dan pengambilan keputusan dari data

Pengujian hipotesis adalah cara disiplin menjawab "apakah efek ini nyata, atau bisa sekadar noise?", yang persis pertanyaan "apakah model A benar-benar lebih baik dari model B?" Anda mulai dengan berasumsi tidak ada apa-apa dan bertanya seberapa mengejutkan data Anda jika itu benar.

Dua klaim bersaing. Hipotesis nol H₀ adalah default membosankan: tidak ada efek, tidak ada perbedaan. Alternatif H₁ adalah apa yang Anda curigai: ada efek. Anda hitung statistik uji dari data dan bertanya: jika H₀ benar, seberapa ekstrem nilai ini?

Jika statistik begitu ekstrem sehingga jarang terjadi di bawah H₀, Anda menolak H₀. Jika tidak, Anda gagal menolak (catat: tidak pernah "menerima", karena ketiadaan bukti bukan bukti ketiadaan).

Di mana ini berlaku dalam MLSetiap klaim "+0.5% akurasi" secara implisit adalah uji hipotesis. H₀: dua model sama baiknya; celah yang diamati adalah noise sampling. Jika Anda lewati uji, Anda akan mengirim perbaikan yang lenyap di split data berikutnya, mengejar galat Tipe I. Seluruh alasan benchmark ML melaporkan varians lintas seed adalah membiarkan Anda bertanya jujur apakah perbedaan melewati lantai noise.

▶ Kerangka

← Interval Kepercayaan p-value →