数据分布

从数据中进行推断、估计和决策

一个中心和一个离散程度只是两个数字。数据的完整形状(它的分布)包含更多信息。最快看到它的方法是直方图:把范围切成箱子,并计数每个箱子中有多少值。平滑版本是密度图。

一旦能看到形状,两个问题就重要起来:它是对称还是偏斜,以及它的尾部是厚还是薄?

偏斜度测量不对称性。右偏(正偏)分布有一条向右延伸的长尾:收入、等待时间、文件大小。左偏分布的尾巴拖向左侧。对右偏形状,均值位于中位数的右侧,被尾巴拖走。

在机器学习中的应用分布形状会驱动真实的机器学习决策。网络内部的激活分布可能漂移并发展出厚尾,这就是 batch/layer normalization 存在的原因。不同 batch 的损失分布能揭示模型是均匀失败,还是在一小部分重尾困难样本上崩溃。厚尾也是 Huber 等稳健损失和梯度裁剪成为标准做法的原因。
▶ 数据分布
← 离散程度的度量变量之间的关系 →