条件概率

不确定性的数学

新信息会改变赔率。一旦你知道“骰子掷出了偶数”,它是 2 的概率就不再是 1/6,因为你已经排除了奇数面。条件概率就是在已知某个事件 B 已经发生时,更新概率的机制。

P(A | B) 读作“给定 B 时 A 的概率”。几何上,它是放大并重新归一化:丢掉 B 外的一切,把 B 当作新的整个世界,然后问这个世界中有多大一部分也在 A 中。除以 P(B) 会重新缩放,使缩小后的世界总概率仍然为 1。

想象一项筛查测试刚刚返回了阳性结果。这个线索并没有改变现实,但它缩小了可能性的范围:你可以抛弃所有测试呈阴性的人,而只看阳性群体 B。“我真的得病了吗?”这个问题变成了 P(A | B),即在这个缩小后的群体中真正生病的比例。

在机器学习中的应用分类器计算的就是条件概率。它的全部任务是 P(class | input),也就是在给定像素或 token 的条件下,每个标签的概率。softmax 向量字面上就是 P(y | x)。对输入进行条件化,才把类别先验变成预测。
▶ 条件概率
← 概率公理Bayes 定理 →