最大似然估计

从数据中进行推断、估计和决策

如果你必须为参数 θ 选择一个单一值，最自然的规则是：选择让你实际观察到的数据最可能出现的 θ。这就是最大似然估计（MLE），也是训练几乎所有机器学习模型背后的原则。

给定假设独立的数据 x₁, …, xₙ，整个样本的概率是每个数据点概率的乘积。把它看作 θ 的函数，这个乘积就是似然：

乘许多很小的概率会下溢到零，而且难以求导。解决方法是取对数：乘积的对数是和，并且 log 单调递增，所以不会移动最大化点。我们最大化对数似然：

在机器学习中的应用训练模型就是最大似然。最小化交叉熵损失正好等于最大化标签的对数似然；交叉熵就是负对数似然。最小化均方误差是 Gaussian 噪声假设下的 MLE。当你调用 .backward() 并让优化器前进一步时，你就是在攀爬上面的对数似然曲面，只不过维度有数百万。