最大似然估计
从数据中进行推断、估计和决策
如果你必须为参数 θ 选择一个单一值,最自然的规则是:选择让你实际观察到的数据最可能出现的 θ。这就是最大似然估计(MLE),也是训练几乎所有机器学习模型背后的原则。
给定假设独立的数据 x₁, …, xₙ,整个样本的概率是每个数据点概率的乘积。把它看作 θ 的函数,这个乘积就是似然:
乘许多很小的概率会下溢到零,而且难以求导。解决方法是取对数:乘积的对数是和,并且 log 单调递增,所以不会移动最大化点。我们最大化对数似然:
在机器学习中的应用训练模型就是最大似然。 最小化交叉熵损失正好等于最大化标签的对数似然;交叉熵就是负对数似然。最小化均方误差是 Gaussian 噪声假设下的 MLE。当你调用 .backward() 并让优化器前进一步时,你就是在攀爬上面的对数似然曲面,只不过维度有数百万。
▶ 最大似然估计