PDF 与 CDF

不确定性的数学

对身高、体重、像素强度这样的连续量，询问 P(X = 3.0000…) 是没有意义的：可能值无限多，所以任何单个值的概率都是零。我们改用概率密度函数 f(x) 描述概率如何分布，并把概率读作面积。

密度本身不是概率，而且可以大于 1。必须成立的是：它非负，并且总面积为 1，这是“PMF 求和为 1”的连续版本：

拖动上方的 μ 和 σ：曲线会平移和伸缩，但其下方面积始终正好为 1。某个区间的概率就是该区间上方的面积切片。

在机器学习中的应用生成模型的输出 p(x | θ) 是一个密度。要从一维分布中采样，可以使用逆变换采样：抽取均匀变量 u ∈ [0,1]，并返回 F⁻¹(u)，也就是反转 CDF。归一化流正是把这个想法推广到高维：学习一个可逆映射，通过变量替换把简单密度变成复杂密度。