p 值

从数据中进行推断、估计和决策

p 值把“我的检验统计量有多极端?”变成一个单个数字。它是在假设 H₀ 为真时,看到与你的数据至少一样极端的数据的概率。很小的 p 值表示“如果真的没有效应,这些数据会非常令人惊讶”,因此是反对 H₀ 的证据。

决策规则是机械的:提前选择阈值 α(常用 0.05),然后如果 p < α,就拒绝 H₀。小 p 不证明 H₁;它只是说明原假设对数据解释得不好。

p 值是一个侥幸检查:如果真的什么也没发生,像你这样的结果会有多令人惊讶?假设一个朋友声称一枚硬币是公平的,却连续抛出九次正面 — p 值给出了在无聊的“它是公平的”故事 H₀ 下,这种连续出现的概率有多罕见的一个具体数字。这个数字越小,就越难将结果作为运气而一笑置之。

在机器学习中的应用在机器学习中,p 值告诉你模型 A 在基准上赢过模型 B 是信号还是噪声。但陷阱是真实存在的:在巨大测试集上,0.01% 的准确率提升也可能“显著”,但实践中完全没有意义。p-hacking,也就是不断尝试配置直到某个结果达到 p < 0.05,正是排行榜充满不可复现结果的原因。
▶ p 值
← 框架t 检验 →