多重検定

データからの推論、推定、意思決定

α = 0.05で1回の検定を実行すると偽陽性が5%の確率で起きる。20回の独立な検定を実行すると、何も本物でなくても、純粋な運で少なくとも1つの「有意な」結果がおそらく得られる。これが多重検定問題で、膨大な研究とML実験を暗黙に腐敗させる。

m回の検定にわたる少なくとも1つの偽陽性の確率、族群族誤り率は膨らむ：水準αでm回の独立な検定について1 − (1 − α)mです。m = 20、α = 0.05で約64%で、幻の効果を見つける方が見つけないよりありそう。

宝くじを1枚買うと、当たる確率はごくわずかです。1000枚買えば、特別な洞察が全くなくても、純粋な偶然でそのうちの1枚が何かを「当てる」かもしれません。多くの統計的検定を実行することは、同じギャンブルです。十分な試行を行えば、無意味なまぐれが最終的に有意水準を超え、本当の発見を装うことになります。

機械学習における位置づけ多重検定はMLの厳密さの静かな殺し屋です。100構成のハイパーパラメータ探索、数十のバリアントのアブレーション研究、50タスクのベンチマークスイート：各々が暗黙の検定の砲列です。修正なしに「バリデーションセットで勝った構成」を選ぶことは大量の多重検定で、それが報告された利得の多くが新しいテストセットで消える理由。

▶ 多重検定

← t検定ノンパラメトリック検定 →