多重检验

从数据中进行推断、估计和决策

以 α = 0.05 做一次检验,你有 5% 的假阳性概率。做二十个独立检验时,即使没有任何真实效应,你也很可能纯靠运气得到至少一个“显著”结果。这就是多重检验问题,它会悄悄污染大量研究和机器学习实验。

在 m 个检验中出现至少一个假阳性的概率,称为族错误率,会膨胀:m 个独立检验、每个水平为 α 时,它是 1 − (1 − α)m。当 m = 20、α = 0.05 时,大约是 64%,也就是说找到一个幽灵效应的可能性超过一半。

买一张彩票,你中奖的几率微乎其微。买一千张,其中一张可能纯属偶然地“赢”了点什么,即使你根本没有任何特别的洞察力。进行许多次统计检验就是同样的赌博:尝试足够多次,一个毫无意义的侥幸最终将越过显著性界限,并伪装成一个真实的发现。

在机器学习中的应用多重检验是机器学习严谨性的隐形杀手。对 100 个配置做超参数搜索、包含几十个变体的消融实验,或包含 50 个任务的基准套件:每一个都是大量隐式检验。没有校正就选择“在验证集上赢的配置”,本质上是大规模多重检验,这也是许多报告提升在新测试集上消失的原因。
▶ 多重检验
← t 检验非参数检验 →