从数据中进行推断、估计和决策
以 α = 0.05 做一次检验,你有 5% 的假阳性概率。做二十个独立检验时,即使没有任何真实效应,你也很可能纯靠运气得到至少一个“显著”结果。这就是多重检验问题,它会悄悄污染大量研究和机器学习实验。
在 m 个检验中出现至少一个假阳性的概率,称为族错误率,会膨胀:m 个独立检验、每个水平为 α 时,它是 1 − (1 − α)m。当 m = 20、α = 0.05 时,大约是 64%,也就是说找到一个幽灵效应的可能性超过一半。
买一张彩票,你中奖的几率微乎其微。买一千张,其中一张可能纯属偶然地“赢”了点什么,即使你根本没有任何特别的洞察力。进行许多次统计检验就是同样的赌博:尝试足够多次,一个毫无意义的侥幸最终将越过显著性界限,并伪装成一个真实的发现。