רגרסיה לינארית מרובה — סטטיסטיקה

חיזויים אמיתיים משתמשים בהרבה קלטים, לא באחד. רגרסיה לינארית מרובה מכלילה את הקו למישור שטוח (או על־מישור) במימדים גבוהים יותר: כל תכונה מקבלת מקדם משלה. אם נערום את כל הנתונים למטריצה X, המודל קומפקטי להפליא:

כאן X היא מטריצת התכנון בגודל n×d (שורה אחת לכל תצפית, עמודה אחת לכל תכונה), β הוא וקטור המקדמים, ו־y הוא וקטור הפלטים. לפתרון OLS יש צורה סגורה מפורסמת:

כדאי לדמיין את הגאומטריה. וקטור החיזויים Xβ̂ חייב לשכון במרחב העמודות של X — קבוצת כל הצירופים של עמודות התכונות. OLS בוחר את ה־β̂ שהחיזוי שלו הוא הנקודה הקרובה ביותר ל־y בתוך אותו מרחב. מבחינה גאומטרית, ŷ הוא ההטלה האורתוגונלית של y על מרחב העמודות, והשארית y − ŷ ניצבת אליו. אותה אורתוגונליות היא בדיוק מה ש־(XᵀX)⁻¹Xᵀ מחשב.

איפה זה ב־MLלנגד עיניך בעיית הריבועים הפחותים מהאלגברה הלינארית — אותו רעיון של הטלה על מרחב העמודות. נוסחת המשוואות הנורמליות היא האב בעל הצורה הסגורה של מה שירידת גרדיאנט מקרבת במודלים גדולים יותר. כש־XᵀX מותנית גרוע (תכונות כמעט־קולינאריות), ההופכית מתפוצצת — וזו בדיוק הבעיה שרגרסיית רידג' מתקנת בעזרת הוספת λI, הנושא שנמצא שני שיעורים קדימה.