p値

データからの推論、推定、意思決定

p値は「検定統計量はどれくらい極端か？」を単一の数に変える。H₀が真と仮定して、自分のデータと同じくらい以上に極端なデータを見る確率です。小さなp値は「本当に効果がないならこのデータは非常に驚くべき」を意味し、H₀に対する証拠です。

決定ルールは機械的です：事前に閾値αを選び（よく0.05）、p < αならH₀を棄却する。小さなpはH₁を証明しない；帰無がデータをうまく説明しないと言うだけ。

p値はフロック（まぐれ）のチェックです: 本当は何も起きていなかった場合、あなたのような結果はどれくらい驚くべきことでしょうか？友人が公正なコインだと主張しながら、9回連続で表を出したとします。p値は、退屈な「それは公正だ」というシナリオ H₀ の下で、その連続がどれほどまれであるかを数値化します。数値が小さいほど、その結果を単なる運として片付けるのが難しくなります。

機械学習における位置づけMLでp値はモデルAのモデルBに対するベンチマークでの勝ちが信号かノイズかを教える。しかし罠は実在する：巨大なテストセットで、0.01%の精度向上が「有意」になり得るが実践では全く無意味。そしてpハッキング、構成をp < 0.05をクリアするまで試すことは、まさにリーダーボードが再現不可能な結果で満たされる方法です。

▶ p値

← フレームワーク t検定 →