p 值

从数据中进行推断、估计和决策

p 值把“我的检验统计量有多极端？”变成一个单个数字。它是在假设 H₀ 为真时，看到与你的数据至少一样极端的数据的概率。很小的 p 值表示“如果真的没有效应，这些数据会非常令人惊讶”，因此是反对 H₀ 的证据。

决策规则是机械的：提前选择阈值 α（常用 0.05），然后如果 p < α，就拒绝 H₀。小 p 不证明 H₁；它只是说明原假设对数据解释得不好。

p 值是一个侥幸检查：如果真的什么也没发生，像你这样的结果会有多令人惊讶？假设一个朋友声称一枚硬币是公平的，却连续抛出九次正面 — p 值给出了在无聊的“它是公平的”故事 H₀ 下，这种连续出现的概率有多罕见的一个具体数字。这个数字越小，就越难将结果作为运气而一笑置之。

在机器学习中的应用在机器学习中，p 值告诉你模型 A 在基准上赢过模型 B 是信号还是噪声。但陷阱是真实存在的：在巨大测试集上，0.01% 的准确率提升也可能“显著”，但实践中完全没有意义。p-hacking，也就是不断尝试配置直到某个结果达到 p < 0.05，正是排行榜充满不可复现结果的原因。

▶ p 值

← 框架 t 检验 →