数据分布

从数据中进行推断、估计和决策

一个中心和一个离散程度只是两个数字。数据的完整形状（它的分布）包含更多信息。最快看到它的方法是直方图：把范围切成箱子，并计数每个箱子中有多少值。平滑版本是密度图。

一旦能看到形状，两个问题就重要起来：它是对称还是偏斜，以及它的尾部是厚还是薄？

偏斜度测量不对称性。右偏（正偏）分布有一条向右延伸的长尾：收入、等待时间、文件大小。左偏分布的尾巴拖向左侧。对右偏形状，均值位于中位数的右侧，被尾巴拖走。

在机器学习中的应用分布形状会驱动真实的机器学习决策。网络内部的激活分布可能漂移并发展出厚尾，这就是 batch/layer normalization 存在的原因。不同 batch 的损失分布能揭示模型是均匀失败，还是在一小部分重尾困难样本上崩溃。厚尾也是 Huber 等稳健损失和梯度裁剪成为标准做法的原因。

▶ 数据分布

← 离散程度的度量变量之间的关系 →