关键离散分布
不确定性的数学
少数几个有名字的分布覆盖了机器学习中大多数离散情形。每个都是现成的 PMF,并且有已知均值和方差,所以你可以选择合适的分布,而不是从零推导。
Bernoulli(p) 建模一次只有两个结果的试验:成功(1)的概率是 p,失败(0)的概率是 1−p。它是其他离散分布的构建块。
两个日常的计数展示了最主要的分布。抛硬币 10 次并计算正面的次数:那个计数是二项式的,是 10 次独立的“是/否”试验的总和。现在计算服务台在一小时内接到的电话数:那个计数是泊松分布,即散布在时间中的罕见事件的法则,它具有单一的速率 λ,该速率同时兼作其平均值和方差。
在机器学习中的应用当你选择分类损失时,其实就是在选择这些分布之一。二分类交叉熵是 Bernoulli 的负对数似然:它把模型给出的单个概率与 0/1 标签比较。多分类交叉熵是 Categorical 的负对数似然:把 softmax 输出与 one-hot 标签比较。你选择的损失编码了你假设标签服从的分布。
▶ 关键离散分布