多重检验

从数据中进行推断、估计和决策

以 α = 0.05 做一次检验，你有 5% 的假阳性概率。做二十个独立检验时，即使没有任何真实效应，你也很可能纯靠运气得到至少一个“显著”结果。这就是多重检验问题，它会悄悄污染大量研究和机器学习实验。

在 m 个检验中出现至少一个假阳性的概率，称为族错误率，会膨胀：m 个独立检验、每个水平为 α 时，它是 1 − (1 − α)m。当 m = 20、α = 0.05 时，大约是 64%，也就是说找到一个幽灵效应的可能性超过一半。

买一张彩票，你中奖的几率微乎其微。买一千张，其中一张可能纯属偶然地“赢”了点什么，即使你根本没有任何特别的洞察力。进行许多次统计检验就是同样的赌博：尝试足够多次，一个毫无意义的侥幸最终将越过显著性界限，并伪装成一个真实的发现。

在机器学习中的应用多重检验是机器学习严谨性的隐形杀手。对 100 个配置做超参数搜索、包含几十个变体的消融实验，或包含 50 个任务的基准套件：每一个都是大量隐式检验。没有校正就选择“在验证集上赢的配置”，本质上是大规模多重检验，这也是许多报告提升在新测试集上消失的原因。