框架

从数据中进行推断、估计和决策

假设检验是一种有纪律地回答“这个效应真实吗,还是可能只是噪声?”的方法,这也正是“模型 A 是否真的比模型 B 更好?”这个问题。你从假设什么都没有发生开始,并问如果这是真的,你的数据会有多令人惊讶。

两个竞争说法。原假设 H₀ 是无聊的默认值:没有效应、没有差异。备择假设 H₁ 是你怀疑的内容:确实有效应。你从数据中计算一个检验统计量,并问:如果 H₀ 为真,这个值有多极端?

如果统计量极端到在 H₀ 下很少出现,你就拒绝 H₀。否则你未能拒绝它(注意:永远不要说“接受”,因为缺乏证据不等于没有效应的证据)。

在机器学习中的应用每个“+0.5% 准确率”的主张都隐含一个假设检验。H₀:两个模型同样好;观察到的差距是采样噪声。如果跳过检验,你会发布下一个数据划分中消失的改进,追逐 I 类错误。机器学习基准报告跨随机种子的方差,就是为了让你诚实地问差异是否超过噪声地板。
▶ 框架
← 置信区间p 值 →