最小二乘

线性映射、向量与矩阵的几何与代数

当 Ax = b 没有精确解时（数据比参数多时通常如此），你就做次优选择：找到让 Ax 尽可能接近 b 的 x。“接近”指平方误差最小。这就是最小二乘，也是普通回归背后的方法。

几何图像就是全部故事。所有可达到的输出 Ax 形成 A 的列空间，也就是高维空间中的一个平面。目标 b 通常漂在这个平面之外。最接近的可达点就是把 b 正交投影到这个平面上：从 b 垂直落下，落点就是 Ax。

在图中，把 b 移到直线外，观察投影（最佳拟合）如何沿线滑动，并始终位于它正下方，误差始终垂直。

在机器学习中的应用线性回归就是最小二乘。闭式解 β = (XᵀX)⁻¹Xᵀy 就是对系数求解正规方程。同样的投影思想定义了伪逆 A⁺，这是“尽可能好地求解 Ax = b”的通用工具。机器学习里的每个平方误差损失，都能追溯到这个把目标投影到模型可达空间上的图像。