כלל השרשרת: הרכבה סקלרית

חשבון דיפרנציאלי ואינטגרלי רב־משתני מיסודות ראשונים

כשמפשיטים את backpropagation עד למתמטיקה שבבסיסו, מגיעים למודול הזה. כלל השרשרת בריבוי משתנים מלמד כיצד לגזור הרכבה של פונקציות, וזה הדבר היחיד שמנוע autograd באמת עושה. נתחיל מהגרסה הסקלרית: כיצד שינוי בקלט אחד מתגלגל דרך משתני ביניים אל הפלט.

נניח ש־z תלוי במשתני הביניים y₁, y₂, …, שתלויים בתורם בקלטים x. כדי למצוא כיצד z משתנה ביחס לקלט אחד, סכמו על פני כל מסלול מאותו קלט אל הפלט, וכִפלו את הנגזרות לאורך כל מסלול:

כל איבר (∂z/∂yₖ)(∂yₖ/∂xᵢ) הוא תרומתו של מסלול אחד; מחברים את תרומות כל המסלולים. אם קיים מסלול יחיד, הביטוי מצטמצם לכלל השרשרת החד־ממדי המוכר.

איפה זה ב־MLסכימה זו על פני מסלולים היא בדיוק המעבר לאחור דרך צומת אחד של הרשת. כל משתנה ביניים yₖ הוא ההפעלה של נוירון; ∂z/∂yₖ הוא הגרדיאנט הזורם בחזרה אליו; ∂yₖ/∂xᵢ היא הנגזרת המקומית של אותה פעולה. כופלים ומחברים, וכך מעבירים את הגרדיאנט צעד אחד לאחור. חוזרים על הצעד הזה על פני הגרף כולו — ובכך מאמנים את המודל.
▶ כלל השרשרת: הרכבה סקלרית
← גאומטריית ההסיאןכלל השרשרת: צורה מטריצית →