p-value

Inferensi, estimasi, dan pengambilan keputusan dari data

p-value mengubah "seberapa ekstrem statistik uji saya?" menjadi satu angka. Itu probabilitas melihat data setidaknya se-ekstrem milik Anda, dengan asumsi H₀ benar. p-value kecil berarti "data ini akan sangat mengejutkan jika benar-benar tidak ada efek", yang adalah bukti melawan H₀.

Aturan keputusan mekanis: pilih ambang α sebelumnya (biasanya 0.05), lalu tolak H₀ jika p < α. p kecil tidak membuktikan H₁; sekadar mengatakan nol menjelaskan data dengan buruk.

Nilai p (p-value) adalah pemeriksaan kebetulan: jika tidak ada yang benar-benar terjadi, seberapa mengejutkan hasil seperti milik Anda? Misalkan seorang teman mengklaim memiliki koin yang adil namun membalik sembilan kepala berturut-turut — nilai p menempatkan angka tentang betapa langkanya rentetan itu di bawah cerita membosankan 'itu adil' H₀. Semakin kecil angkanya, semakin sulit untuk mengabaikan hasilnya sebagai sekadar keberuntungan.

Di mana ini berlaku dalam MLDi ML, p-value memberi tahu apakah kemenangan model A atas model B di benchmark adalah sinyal atau noise. Tapi jebakan nyata: dengan set tes raksasa, kenaikan akurasi 0.01% bisa 'signifikan' namun sama sekali tidak bermakna dalam praktik. Dan p-hacking, mencoba konfigurasi sampai satu lolos p < 0.05, persis bagaimana leaderboard terisi hasil tidak-reproduktif.
▶ p-value
← Kerangkauji-t →