הגרדיאנט

חשבון דיפרנציאלי ואינטגרלי רב־משתני מיסודות ראשונים

אסוף כל נגזרת חלקית של f לוקטור אחד ומקבלים את הגרדיאנט, נכתב ∇f ("grad f"). כל אופטימיזטור בלמידה עמוקה רץ על האובייקט האחד הזה, אז הוא ראוי למקום המרכזי בקורס.

הגרדיאנט הוא לא רק הנהלת חשבונות. כוקטור במרחב הקלט, יש לו כיוון ואורך, ושניהם נושאים משמעות. הכיוון הוא כיוון העלייה התלולה ביותר: כוון את עצמך לאורך ∇f והפונקציה מטפסת מהר ככל האפשר. אורכו ‖∇f‖ הוא בדיוק מידת התלילות של אותו טיפוס.

דמיינו את עצמכם עומדים על גבעה עטורת דשא בערפל. הגרדיאנט ∇f הוא החץ המצביע היישר במעלה החלק התלול ביותר של השיפוע, ואורכו אומר לכם בדיוק כמה מעניש הטיפוס הזה. הניחו כדור ושחררו אותו: הוא מתגלגל בדיוק בכיוון ההפוך, ולוקח את הדרך המהירה ביותר למטה.

איפה זה ב־MLכשעומדים על פני ההפסד, רוצים לצעוד במורד מהר ככל האפשר. הגרדיאנט ∇L מצביע לעבר העלייה התלולה ביותר, ולכן מחסרים אותו: w ← w − η∇L, זהו העדכון שמאחורי SGD, Adam, וכל אופטימיזטור אחר. ל־backpropagation יש סיבת קיום אחת, לחשב את הוקטור הזה ביעילות.
▶ הגרדיאנט
← נגזרות חלקיות מסדר גבוהנגזרת כיוונית →