Вывод, оценивание и принятие решений по данным
Реальные предсказания используют много входов, не один. Множественная линейная регрессия обобщает линию в плоскость (или гиперплоскость) в больших размерностях: у каждого признака свой коэффициент. Упаковывая данные в матрицу X, модель изящно компактна:
Здесь X — n×d матрица плана (строка на наблюдение, столбец на признак), β — вектор коэффициентов, y — выходы. Решение OLS имеет знаменитую замкнутую форму:
Геометрию стоит представить. Вектор предсказаний Xβ̂ должен жить в столбцовом пространстве X — множестве всех комбинаций столбцов-признаков. OLS выбирает β̂, чьё предсказание — ближайшая к y точка в этом пространстве. Геометрически ŷ — ортогональная проекция y на столбцовое пространство, а остаток y − ŷ перпендикулярен ему. Эта перпендикулярность — то, что вычисляет (XᵀX)⁻¹Xᵀ.