t 检验

从数据中进行推断、估计和决策

t 检验是比较均值的常用工具。它回答类似“这个均值是否不同于某个目标值？”或“这两个组的均值是否不同？”这样的问题，使用一个检验统计量，把均值之间的差距用标准误的单位来衡量。

对于单样本情形（均值 μ 是否等于目标 μ₀？），统计量是：

分子表示“样本均值离目标值有多远？”；分母是标准误。较大的 |t| 表示这个差距相对于噪声很大，因此构成反对 H₀ 的证据。

在机器学习中的应用当两个模型在相同样本上评估时，配对 t 检验是回答“模型 A 是否显著优于模型 B？”的正确工具。按每个测试样本进行配对，可以抵消样本难度之间的变化，从而隔离模型之间的差异。注意：标准交叉验证折之间会重叠，这违反独立性；修正的配对检验正是为这种情况设计的（你会在第 22 课遇到它们）。

▶ t 检验

← p 值多重检验 →