データからの推論、推定、意思決定
訓練誤差でモデルを評価できない;モデルはそのデータをすでに見ているので暗記してズルできる。見たことのないデータでの誤差が必要。しかし単一のテストセットを取っておくとデータを無駄にしノイズの多い推定を与える。交差検証が両方の問題を解決する。
k分割交差検証では、データをk個の等しいフォールドに分割する。k−1個で訓練し、取っておいた1個でバリデーションし、各フォールドがちょうど1回バリデーションセットとして機能するよう回転する。モデルがどう汎化するかの安定した推定のためにk個のバリデーション誤差を平均する。
交差検証は、実際の試験のスコアを予測するために複数の模擬試験を受けるようなものです。すでに答えを暗記している問題で自分を採点しただけでは、ひどく過大評価してしまうため、毎回新しい問題のセットを確保し、それで自分を採点し、どのセットを確保するかをローテーションします。すべての模擬試験のスコアを平均することで、1回の模擬試験よりも、当日の成績をはるかに安定して予測できます。