Bayesian 估计
从数据中进行推断、估计和决策
MLE 问的是“哪个单一 θ 最能解释数据?”Bayesian 估计问一个更丰富的问题:“给定数据后,我对 θ 的完整信念是什么?”你得到的不是一个数字,而是整个分布,并且可以融入你事先知道的东西。
三个组成部分。先验 p(θ) 是看到数据之前的信念。似然 p(x|θ) 是每个 θ 对数据的解释程度(与 MLE 中的对象相同)。Bayes 规则把它们组合成后验 p(θ|x):
可以读作:后验信念 = θ 解释数据的能力,并按 θ 一开始有多合理进行加权。数据越多,似然越占主导,先验影响越被冲淡。
在机器学习中的应用正则化就是这个想法的日常用法。向损失中加入 L2 惩罚 λ‖β‖²,正好等价于权重上的Gaussian 先验下的 MAP 估计。先验说“接近零的权重更合理”。加入 L1 惩罚对应Laplace 先验,它偏好稀疏权重。权重衰减不是技巧;它是换了名字的 Bayesian 先验。
▶ Bayesian 估计