参数与估计量

从数据中进行推断、估计和决策

几乎每个统计问题都有相同形状。世界上有一个你看不见的真实数字，称为参数 θ（真实均值、真实成功概率）。你只有有限样本数据。你从数据中计算一个猜测，称为估计量 θ̂。估计就是构造好的猜测，并知道该多信任它。

因为数据是随机的，θ̂ 本身也是随机量：重新做一次实验，会得到不同的 θ̂。我们用两件事评价估计量：它的偏差（平均来说是否落在 θ 上？）和它的方差（从一个样本到另一个样本会跳动多少？）。

你不能喝下整锅汤来判断调味，所以你要搅拌均匀并尝一勺。整锅汤真正的咸度是你无法直接看到的参数 θ；你那一勺的咸度是估计量 θ̂。先彻底搅拌，然后一勺就能非常好地估计整锅汤 — 这种搅拌正是让样本具有代表性的原因。

在机器学习中的应用欠拟合与过拟合就是同一个权衡。模型参数是从有限训练数据拟合得到的 θ̂。欠拟合 = 高偏差：模型太简单，无法捕捉真实规律。过拟合 = 高方差：模型太灵活，记住了特定训练样本，而换一个新样本会给出非常不同的参数。选择模型复杂度，就是选择这个权衡上的一个点。