Bayesian 估计

从数据中进行推断、估计和决策

MLE 问的是“哪个单一 θ 最能解释数据？”Bayesian 估计问一个更丰富的问题：“给定数据后，我对 θ 的完整信念是什么？”你得到的不是一个数字，而是整个分布，并且可以融入你事先知道的东西。

三个组成部分。先验 p(θ) 是看到数据之前的信念。似然 p(x|θ) 是每个 θ 对数据的解释程度（与 MLE 中的对象相同）。Bayes 规则把它们组合成后验 p(θ|x)：

可以读作：后验信念 = θ 解释数据的能力，并按 θ 一开始有多合理进行加权。数据越多，似然越占主导，先验影响越被冲淡。

在机器学习中的应用正则化就是这个想法的日常用法。向损失中加入 L2 惩罚 λ‖β‖²，正好等价于权重上的Gaussian 先验下的 MAP 估计。先验说“接近零的权重更合理”。加入 L1 惩罚对应Laplace 先验，它偏好稀疏权重。权重衰减不是技巧；它是换了名字的 Bayesian 先验。

▶ Bayesian 估计

← 常见分布的 MLE 置信区间 →