从数据中进行推断、估计和决策
真实预测使用许多输入,而不是一个。多元线性回归把直线推广到高维中的平面(或超平面):每个特征都有自己的系数。把所有数据堆成矩阵 X,模型就非常紧凑:
这里 X 是 n×d 的设计矩阵(每个观测一行,每个特征一列),β 是系数向量,y 是输出。OLS 解有一个著名闭式形式:
这个几何图像值得想象。预测向量 Xβ̂ 必须位于 X 的列空间中,也就是所有特征列组合的集合。OLS 选择一个 β̂,使预测成为该空间中离 y 最近的点。几何上,ŷ 是 y 到列空间上的正交投影,残差 y − ŷ 与列空间垂直。这种垂直性正是 (XᵀX)⁻¹Xᵀ 计算的东西。