הסקה, אומדן וקבלת החלטות מנתונים
חיזויים אמיתיים משתמשים בהרבה קלטים, לא באחד. רגרסיה לינארית מרובה מכלילה את הקו למישור שטוח (או על־מישור) במימדים גבוהים יותר: כל תכונה מקבלת מקדם משלה. אם נערום את כל הנתונים למטריצה X, המודל קומפקטי להפליא:
כאן X היא מטריצת התכנון בגודל n×d (שורה אחת לכל תצפית, עמודה אחת לכל תכונה), β הוא וקטור המקדמים, ו־y הוא וקטור הפלטים. לפתרון OLS יש צורה סגורה מפורסמת:
כדאי לדמיין את הגאומטריה. וקטור החיזויים Xβ̂ חייב לשכון במרחב העמודות של X — קבוצת כל הצירופים של עמודות התכונות. OLS בוחר את ה־β̂ שהחיזוי שלו הוא הנקודה הקרובה ביותר ל־y בתוך אותו מרחב. מבחינה גאומטרית, ŷ הוא ההטלה האורתוגונלית של y על מרחב העמודות, והשארית y − ŷ ניצבת אליו. אותה אורתוגונליות היא בדיוק מה ש־(XᵀX)⁻¹Xᵀ מחשב.