MLのための統計的検定

データからの推論、推定、意思決定

2つの分類器を構築し、一方が91.0%の精度、他方が91.4%をスコアした。2番目は本当に良いのか、それともより運の良いテストセットを得ただけか?これに厳密に答えるのがMLのための統計的検定です:モデル比較の特質に適応した仮説検定。

素朴な動き、フォールドごとの精度でプレーンなt検定は欠陥がある、交差検証フォールドは訓練データを共有しt検定が仮定する独立性に違反するから。これが検定を過信させ偽陽性を膨らませる。3つのより良いツールがMLの状況を正直に扱う。

マクネマー検定は同じテストセットで2つの分類器を、それらが不一致の例のみを見ることで比較する、対応あり予測にちょうど適した問いです。ブートストラップはテストセットを何度も復元抽出して精度の信頼区間を直接構築する、公式不要。修正対応ありt検定はCVフォールド間の重なりを考慮して分散を調整し、素朴版の過信を取り消す。

機械学習における位置づけこの種の厳密さが本物の結果をリーダーボードのノイズから分けるものです。モデルAがモデルBに勝つと主張する前にマクネマー検定(同じテストセット)または精度の差のブートストラップCIを実行する。結果が「91.2%」だけでなく「91.2% ± 0.4%」として報告される全体の理由は、読者が目でちょうどこの種の検定を適用できるようにするため。
▶ MLのための統計的検定
← 評価指標生成 vs 識別 →