框架

从数据中进行推断、估计和决策

假设检验是一种有纪律地回答“这个效应真实吗，还是可能只是噪声？”的方法，这也正是“模型 A 是否真的比模型 B 更好？”这个问题。你从假设什么都没有发生开始，并问如果这是真的，你的数据会有多令人惊讶。

两个竞争说法。原假设 H₀ 是无聊的默认值：没有效应、没有差异。备择假设 H₁ 是你怀疑的内容：确实有效应。你从数据中计算一个检验统计量，并问：如果 H₀ 为真，这个值有多极端？

如果统计量极端到在 H₀ 下很少出现，你就拒绝 H₀。否则你未能拒绝它（注意：永远不要说“接受”，因为缺乏证据不等于没有效应的证据）。

在机器学习中的应用每个“+0.5% 准确率”的主张都隐含一个假设检验。H₀：两个模型同样好；观察到的差距是采样噪声。如果跳过检验，你会发布下一个数据划分中消失的改进，追逐 I 类错误。机器学习基准报告跨随机种子的方差，就是为了让你诚实地问差异是否超过噪声地板。