フレームワーク

データからの推論、推定、意思決定

仮説検定は「この効果は本物か、それともただのノイズか?」に答える規律ある方法で、「モデルAは実際にモデルBより良いか?」の正確な問いです。何も起きていないと仮定して始め、もし真ならデータがどれくらい驚くべきかを問う。

2つの競合する主張です。帰無仮説H₀は退屈なデフォルトです:効果なし、差なし。対立仮説H₁はあなたが疑うものです:効果がある。データから検定統計量を計算し問う:もしH₀が真なら、この値はどれくらい極端か?

統計量がH₀の下では稀にしか起きないほど極端なら、H₀を棄却する。そうでなければ棄却できない(注意:決して「受容」しない、証拠の不在が不在の証拠ではないので)。

機械学習における位置づけすべての「+0.5%精度」の主張は暗黙に仮説検定です。H₀:2つのモデルは等しく良い;観測された差はサンプリングノイズ。検定を飛ばすと、次のデータ分割で消える改善を出荷し、第1種の誤りを追う。MLベンチマークがシードにわたる分散を報告する全体の理由は、差がノイズの床をクリアするかを正直に問えるようにするため。
▶ フレームワーク
← 信頼区間p値 →