תצפית של גרדיאנט ירידה — חדו״ג I

חשבון דיפרנציאלי ואינטגרלי חד־משתני מיסודות ראשונים

נניח שאתה רוצה למצוא את הנקודה הנמוכה ביותר של עקומה, אבל אתה רואה רק את הקרקע שמתחת לרגליך — אתה מרגיש את השיפוע ותו לא. מה עושים? פשוט: צועדים בכיוון היורד, מרגישים שוב, צועדים שוב. וחוזר חלילה. זהו גרדיאנט ירידה, האלגוריתם שמאמן כמעט כל מודל AI מודרני.

תארו לעצמכם שאתם הולכים במורד בגובה בערפל כה סמיך שאינכם יכולים לראות צעד קדימה. אתם לא יכולים לזהות את קרקעית העמק, אבל אתם עדיין יכולים להרגיש עם הרגל לאיזה כיוון הקרקע נוטה למטה, ולקחת צעד לכיוון הזה. להרגיש, לצעוד, להרגיש, לצעוד. מורד הגרדיאנט הוא בדיוק ההליכה העיוורת והסבלנית הזו לעבר הקרקע הנמוכה ביותר.

איפה זה ב־MLהשורה הבודדת הזו היא לבו של כל אופטימיזטור בלמידה עמוקה. עדכון המשקל זהה ברוחו: w ← w − η∇L, כש־∇L הוא פשוט הנגזרת הרב־ממדית (הגרדיאנט) מהקורס הבא. SGD, Adam, RMSProp והשאר הם כולם עידונים של אותו שלד — גדלי צעד חכמים יותר, מומנטום, קצבים לכל פרמטר — אבל העצמות הן בדיוק הכלל שלמעלה. אי־הקמירות היא הסיבה לכך שלרשתות עמוקות אין מינימום יחיד "נכון", שתי ריצות אימון מאתחולים אקראיים שונים נוחתות…