モデルの診断 — 統計学 · Mathematics for Machine Learning

回帰をフィットするのは簡単な部分です。より難しい問いはそれを信頼できるかです。モデルの診断は数値にフィットするが背後の仮定に違反するモデルを捉えるチェックです。最も有用な見るオブジェクトは残差です：e = y − ŷ、モデルが説明できなかった残り。

モデルが正しければ、残差は純粋なノイズに見えるはずです：パターンなし、一定の広がり、ほぼ対称。主なツールは残差プロットです：y軸に残差、x軸にフィット値（または入力）。あるべきでない構造を探す。

良い医者は病名をつけるだけでは終わりません。治療後にどんな症状が残っているかを確認します。患者にしつこい咳がまだある場合、その診断は何かを見落としています。残差とは、モデルの残された症状です。つまり、適合された直線が説明できなかったデータの一部です。無害なランダムノイズの代わりに明確なパターンを示している場合、モデルも何かを見落としているのです。

機械学習における位置づけ残差分析はMLの学習曲線と誤差分析の統計的祖先です。「訓練損失 ≠ バリデーション損失」は診断です：大きなギャップは過学習（高分散）を信号し、パターンのある残差が誤指定モデルを信号するのと同じ。モデルが系統的に失敗する場所を見つけるために誤差をサブグループごとにスライスするのは、まさに残差プロットの思考をスケールアップしたもの。