フレームワーク

データからの推論、推定、意思決定

仮説検定は「この効果は本物か、それともただのノイズか？」に答える規律ある方法で、「モデルAは実際にモデルBより良いか？」の正確な問いです。何も起きていないと仮定して始め、もし真ならデータがどれくらい驚くべきかを問う。

2つの競合する主張です。帰無仮説H₀は退屈なデフォルトです：効果なし、差なし。対立仮説H₁はあなたが疑うものです：効果がある。データから検定統計量を計算し問う：もしH₀が真なら、この値はどれくらい極端か？

統計量がH₀の下では稀にしか起きないほど極端なら、H₀を棄却する。そうでなければ棄却できない（注意：決して「受容」しない、証拠の不在が不在の証拠ではないので）。

機械学習における位置づけすべての「+0.5%精度」の主張は暗黙に仮説検定です。H₀：2つのモデルは等しく良い；観測された差はサンプリングノイズ。検定を飛ばすと、次のデータ分割で消える改善を出荷し、第1種の誤りを追う。MLベンチマークがシードにわたる分散を報告する全体の理由は、差がノイズの床をクリアするかを正直に問えるようにするため。

▶ フレームワーク

← 信頼区間 p値 →