データからの推論、推定、意思決定
2つの分類器を構築し、一方が91.0%の精度、他方が91.4%をスコアした。2番目は本当に良いのか、それともより運の良いテストセットを得ただけか?これに厳密に答えるのがMLのための統計的検定です:モデル比較の特質に適応した仮説検定。
素朴な動き、フォールドごとの精度でプレーンなt検定は欠陥がある、交差検証フォールドは訓練データを共有しt検定が仮定する独立性に違反するから。これが検定を過信させ偽陽性を膨らませる。3つのより良いツールがMLの状況を正直に扱う。
マクネマー検定は同じテストセットで2つの分類器を、それらが不一致の例のみを見ることで比較する、対応あり予測にちょうど適した問いです。ブートストラップはテストセットを何度も復元抽出して精度の信頼区間を直接構築する、公式不要。修正対応ありt検定はCVフォールド間の重なりを考慮して分散を調整し、素朴版の過信を取り消す。