רגרסיה מרוסנת — סטטיסטיקה · Mathematics for Machine Learning

OLS מוצא את המקדמים שמתאימים בצורה הטובה ביותר לנתוני האימון — וזו בדיוק הבעיה כשיש הרבה תכונות או מעט נתונים: הוא מתאים את עצמו גם לרעש, והמקדמים מתנדנדים לערכים פרועים. רגרסיה מרוסנת מאלפת זאת בעזרת הוספת עונש על מקדמים גדולים, ומחליפה מעט מהתאמת האימון בהכללה הרבה יותר טובה.

רגרסיית רידג' מוסיפה עונש L2 — האורך בריבוע של וקטור המקדמים:

הפרמטר λ שולט בעוצמת העונש. λ = 0 הוא OLS רגיל; ככל ש־λ גדל, כל מקדם מתכווץ לעבר אפס והמודל מתמתן. הכיווץ הזה גם מתקן את ה־(XᵀX)⁻¹ המותנֵית גרוע מהשיעור הקודם: רידג' מוסיף λI ומבטיח הפיכוּת.

איפה זה ב־MLעונש הרידג' הוא weight decay — הרגולריזטור הנפוץ ביותר בלמידה עמוקה, המובנה כמעט בכל אופטימייזר. וכפי שראית בשיעור 8, רידג' = MAP עם קודם גאוסיאני, ו־Lasso = MAP עם קודם לפלס. רגולריזציה, weight decay וקודמים בייסיאניים הם שלושה שמות לאותו רעיון: העדף משקלים פשוטים יותר, אלא אם הנתונים טוענים בתוקף אחרת.