t 检验

从数据中进行推断、估计和决策

t 检验是比较均值的常用工具。它回答类似“这个均值是否不同于某个目标值?”或“这两个组的均值是否不同?”这样的问题,使用一个检验统计量,把均值之间的差距用标准误的单位来衡量。

对于单样本情形(均值 μ 是否等于目标 μ₀?),统计量是:

分子表示“样本均值离目标值有多远?”;分母是标准误。较大的 |t| 表示这个差距相对于噪声很大,因此构成反对 H₀ 的证据。

在机器学习中的应用当两个模型在相同样本上评估时,配对 t 检验是回答“模型 A 是否显著优于模型 B?”的正确工具。按每个测试样本进行配对,可以抵消样本难度之间的变化,从而隔离模型之间的差异。注意:标准交叉验证折之间会重叠,这违反独立性;修正的配对检验正是为这种情况设计的(你会在第 22 课遇到它们)。
▶ t 检验
← p 值多重检验 →