交差検証

データからの推論、推定、意思決定

訓練誤差でモデルを評価できない；モデルはそのデータをすでに見ているので暗記してズルできる。見たことのないデータでの誤差が必要。しかし単一のテストセットを取っておくとデータを無駄にしノイズの多い推定を与える。交差検証が両方の問題を解決する。

k分割交差検証では、データをk個の等しいフォールドに分割する。k−1個で訓練し、取っておいた1個でバリデーションし、各フォールドがちょうど1回バリデーションセットとして機能するよう回転する。モデルがどう汎化するかの安定した推定のためにk個のバリデーション誤差を平均する。

交差検証は、実際の試験のスコアを予測するために複数の模擬試験を受けるようなものです。すでに答えを暗記している問題で自分を採点しただけでは、ひどく過大評価してしまうため、毎回新しい問題のセットを確保し、それで自分を採点し、どのセットを確保するかをローテーションします。すべての模擬試験のスコアを平均することで、1回の模擬試験よりも、当日の成績をはるかに安定して予測できます。

機械学習における位置づけ交差検証はML実務者が自分を欺かずにモデルとハイパーパラメータを選択する方法です。すべてのデータを効率的に使い汎化誤差（バイアス・分散分解が扱う量）を推定する。そしてデータ漏洩に対する最前線です：テスト分布からの情報が訓練に忍び込み、美しく完全に偽のバリデーションスコアを生む静かなバグ。

▶ 交差検証

← バイアス・分散分解評価指標 →