中心位置的度量

从数据中进行推断、估计和决策

在建模数据之前,你必须诚实地总结数据。最基本的总结是一个回答“数据集中在哪里?”的单个数字。有三个经典答案,而且它们并不总是一致;这正是你需要了解三者的原因。

均值是平衡点:把所有值相加,再除以个数。中位数是排序后的中间值。众数只是出现最频繁的值。

想象一条短街上的要价,以十万为单位:3, 4, 4, 5, 30。四栋普通住宅和一栋海滨豪宅。平均价格是46/5 = 9.2,然而没有一栋普通房子的价格接近那个数字。中位数,即排序后的中间值,仅为4,它如实报告了典型的房价,因为那栋孤零零的豪宅无法将列表的中间部分拉得太远。

在机器学习中的应用你报告的每个损失指标都是测试集上的中心位置度量。“均方误差”会平均平方误差;均值很敏感,所以少数灾难性预测会主导它。当你怀疑有重尾时,也报告中位数误差。它告诉你典型样本经历了什么,而不是最糟糕的少数样本如何扭曲平均值。
▶ 中心位置的度量
← 中心极限定理离散程度的度量 →