כלל השרשרת: צורה מטריצית

חשבון דיפרנציאלי ואינטגרלי רב־משתני מיסודות ראשונים

נוסחת הסכימה־על־מסלולים אינה אלא כפל מטריצות כשהוא כתוב איבר אחר איבר. כשהפונקציות הן וקטוריות, כלל השרשרת מצטמצם למכפלה נקייה של יעקוביאנים, וזו הצורה שמניעה מערכות autograd אמיתיות.

עבור הרכבה f ∘ g, היעקוביאן של ההרכבה כולה שווה ליעקוביאן של המפה החיצונית (מוערך בפלט של הפנימית) כפול היעקוביאן של המפה הפנימית:

בדיקת הצורות היא מה שמבהיר את העניין. אם g: Rⁿ → Rᵏ ו־f: Rᵏ → Rᵐ, אז J_g היא מטריצת k×n, J_f היא מטריצת m×k, ומכפלתן היא m×n — בדיוק הצורה שדורשת המפה הכוללת Rⁿ → Rᵐ. המימד הפנימי k מצטמצם, בדיוק כמו בכפל מטריצות רגיל.

איפה זה ב־MLמכפלה זו היא הסיבה לכך שרשתות עמוקות סובלות מגרדיאנטים נעלמים ומתפוצצים. אם כופלים יעקוביאנים רבים שהערכים הסינגולריים שלהם קטנים מ־1, המכפלה מתכווצת עד אפס; אם הם גדולים מ־1, היא מתפוצצת. חיבורים שיוריים, אתחול זהיר ונירמול קיימים כולם כדי לשמור על מכפלת היעקוביאנים סביב קנה מידה בריא, כך שהגרדיאנטים ישרדו את המסע חזרה דרך שכבות רבות.
▶ כלל השרשרת: צורה מטריצית
← כלל השרשרת: הרכבה סקלריתגרפי חישוב →