データからの推論、推定、意思決定
実際の予測は1つではなく多数の入力を使う。重回帰は直線を高次元の平坦な平面(または超平面)に一般化する:各特徴が自身の係数を持つ。すべてのデータを行列Xに積み重ねると、モデルは美しくコンパクトになる:
ここでXはn×dの計画行列(観測ごとに1行、特徴ごとに1列)、βは係数ベクトル、yは出力です。OLS解は有名な閉形式を持つ:
幾何学は想像する価値がある。予測のベクトルXβ̂はXの列空間、特徴列のすべての組合せの集合に住まなければならない。OLSは予測がその空間でyに最も近い点であるβ̂を選ぶ。幾何学的に、ŷは列空間へyの直交射影で、残差y − ŷはそれに垂直。その垂直性がまさに(XᵀX)⁻¹Xᵀが計算するもの。