模型诊断

从数据中进行推断、估计和决策

拟合回归很容易。更难的问题是你能否信任它。模型诊断是捕捉“数值上拟合了,但违反底层假设”的模型的检查。最有用的对象是残差:e = y − ŷ,也就是模型没能解释的剩余部分。

如果模型正确,残差应该看起来像纯噪声:没有模式、离散程度恒定、大致对称。主要工具是残差图:y 轴是残差,x 轴是拟合值(或某个输入)。你要寻找本不该存在的结构。

好医生不会在说出病名后就停止;他们会检查治疗后留下了什么症状。如果病人仍然有顽固的咳嗽,说明诊断遗漏了什么。残差是一个模型留下的症状:这是拟合线无法解释的那部分数据。如果它们显示出一种清晰的模式,而不是无害的随机噪声,那么该模型也一定遗漏了什么。

在机器学习中的应用残差分析是机器学习中学习曲线和错误分析的统计学祖先。“训练损失 ≠ 验证损失”就是一种诊断:大差距表示过拟合(高方差),就像有模式的残差表示模型设定错误。按子群切分错误,找出模型在哪里系统性失败,本质上就是把残差图思维放大。
▶ 模型诊断
← 多元线性回归正则化回归 →