概率公理

不确定性的数学

怎样给“有多可能”分配一个数字?Andrey Kolmogorov 证明,整个概率理论只建立在三条规则上。你之后使用的所有公式,都是这些规则的结果。

用文字说:概率永远不为负;某件事会发生的概率正好是 1;并且对不能重叠的事件,概率可以直接相加。就是这样。概率就是把总质量 1 分配到各个结果上的方式。

想象一个完整的馅饼被切成多块,每种结果对应一块。没有任何一块可以是负数大小(这就是规则 P(A) ≥ 0),并且所有的块加在一起必须填满整个馅饼,绝不能多也不能少,这正是 P(Ω) = 1。询问一个事件的概率仅仅意味着把属于它的块加起来。

在机器学习中的应用softmax 层把原始分数转换成一个概率分布,并且它天然满足这些公理:每个输出非负(公理 1),并且所有类别上的输出和为 1(公理 2)。当模型报告“P(cat) = 0.7”时,剩下的 0.3 会分给所有其他类别,这就是补集规则在起作用。每当你把分数重新归一化成概率时,你就在强制执行 Kolmogorov 公理。
▶ 概率公理
← 样本空间与事件条件概率 →