Множествена линейна регресия

Извод, оценка и вземане на решения от данни

Реалните прогнози използват много входове, а не само един. Множествената линейна регресия обобщава правата до плоска равнина (или хиперравнина) в по-високи измерения: всяка характеристика (feature) получава свой собствен коефициент. Ако подредим всички данни в матрица X, моделът става забележително компактен:

Тук X е n×d дизайнова матрица (design matrix) (един ред за наблюдение, една колона за характеристика), β е векторът на коефициентите, а y са изходните данни. Решението на метода на най-малките квадрати (OLS) има известна затворена форма:

Геометрията си струва да бъде визуализирана. Векторът на прогнозите Xβ̂ задължително лежи в колонното пространство (column space) на X – множеството от всички линейни комбинации на вашите колони с характеристики. OLS избира такова β̂, чиято прогноза е точката в това пространство, най-близка до y. Геометрично, ŷ е ортогоналната проекция на y върху колонното пространство, а остатъкът y − ŷ е перпендикулярен на него. Тази перпендикулярност е точно това, което (XᵀX)⁻¹Xᵀ изчислява.

Къде се използва това в MLРазглеждате проблема с най-малките квадрати от линейната алгебра – същата идея за проекция върху колонно пространство. Формулата за нормалните уравнения е затвореното решение (closed-form solution), което градиентното спускане (gradient descent) търси итеративно при по-големи модели. Когато XᵀX е лошо обусловена (ill-conditioned, напр. поради почти колинеарни характеристики), стойностите на…
▶ Множествена линейна регресия
← Проста линейна регресияДиагностика на модела →