Множественная линейная регрессия

Вывод, оценивание и принятие решений по данным

Реальные предсказания используют много входов, не один. Множественная линейная регрессия обобщает линию в плоскость (или гиперплоскость) в больших размерностях: у каждого признака свой коэффициент. Упаковывая данные в матрицу X, модель изящно компактна:

Здесь X — n×d матрица плана (строка на наблюдение, столбец на признак), β — вектор коэффициентов, y — выходы. Решение OLS имеет знаменитую замкнутую форму:

Геометрию стоит представить. Вектор предсказаний Xβ̂ должен жить в столбцовом пространстве X — множестве всех комбинаций столбцов-признаков. OLS выбирает β̂, чьё предсказание — ближайшая к y точка в этом пространстве. Геометрически ŷ — ортогональная проекция y на столбцовое пространство, а остаток y − ŷ перпендикулярен ему. Эта перпендикулярность — то, что вычисляет (XᵀX)⁻¹Xᵀ.

Где это встречается в MLВы смотрите на задачу наименьших квадратов из линейной алгебры, ту же идею проекции на столбцовое пространство. Формула нормальных уравнений — замкнутый предок того, что градиентный спуск аппроксимирует для больших моделей. Когда XᵀX плохо обусловлена (почти коллинеарные признаки), обратная взрывается — именно проблему гребневая регрессия исправляет, добавляя λI, тема через два урока.
▶ Множественная линейная регрессия
← Простая линейная регрессияДиагностика модели →