נורמות

גאומטריה ואלגברה של העתקות לינאריות, וקטורים ומטריצות

נורמה עונה "כמה גדול הוקטור הזה?" היא מודדת אורך. הקושי הוא שיש יותר מדרך סבירה אחת למדוד אורך, והבחירה משפיעה בשקט על אופן ההתנהגות של מודלי למידת מכונה.

ברירת המחדל היא נורמת L2 (אוקלידית): המרחק בקו ישר מהראשית לקצה, לפי פיתגורס. נורמת L1 במקום זאת סוכמת את הקואורדינטות המוחלטות, מרחק "מונית", כאילו אפשר לנסוע רק לאורך רחובות רשת. נורמת L∞ לוקחת רק את הקואורדינטה הגדולה ביותר.

דמיינו שאתם הולכים בעיר מפינה אחת לאחרת. המרחק בקו ישר, במעוף הציפור, הוא הנורמה L2 — המסלול שרחפן היה טס בו. אבל אם רחובות מאלצים אתכם ללכת רק על פני רשת דרכים, מרחק בלוק-העיר שאתם באמת הולכים בו הוא הנורמה L1. אותו מסע, שני מדדים כנים ל-"עד כמה רחוק," והמסלול ברשת הדרכים לעולם אינו קצר יותר ממעוף הציפור.

איפה זה ב־MLנורמות הן רגולריזציה. דעיכת משקל L2 מענישה את ‖w‖₂² ומושכת כל משקל בעדינות לעבר האפס, ובכך שומרת על המודל חלק. רגולריזציית L1 מענישה את ‖w‖₁ ודוחפת משקלים רבים לאפס מדויק, ומפיקה מודל דליל שבורר תכונות (הפינות של היהלום שתוארו למעלה הן הסיבה). נורמת הגרדיאנט ‖∇L‖₂ מנוטרת במהלך האימון, ו"קיצוץ גרדיאנט" מקטין אותה מחדש כשהיא גדלה מדי.
▶ נורמות
← מכפלה סקלריתצירופים לינאריים ופרישה →