חשבון דיפרנציאלי ואינטגרלי חד־משתני מיסודות ראשונים
כלל השרשרת הוא הכלל שעליו בנוי ה־backpropagation. הוא אומר כיצד לגזור הרכבה: פונקציה בתוך פונקציה אחרת, כמו f(g(x)).
כדי לגזור "חיצונית של פנימית", קח את הנגזרת החיצונית (השאר את הפנימית כמות שהיא), ואז הכפל בנגזרת הפנימית. קצבי השינוי מוכפלים זה בזה לאורך השרשרת.
חשוב על זה כעל צינור: x → g → f. דחיפה קטנה ב־x מוגברת בגורם g′, ואז הדחיפה המוגברת מוגברת שוב בגורם f′. ההגברה הכוללת היא מכפלת שתיהן. האיור עוקב אחר הנגזרות המוכפלות לאורך ההרכבה.
איפה זה ב־MLBackpropagation הוא כלל השרשרת, הרץ לאחור דרך הרשת. רשת עמוקה היא הרכבה ענקית אחת (שכבה אחר שכבה אחר שכבה), והגרדיאנט של ההפסד ביחס למשקל מוקדם הוא מכפלה של נגזרות מקומיות, אחת לכל שכבה, המוכפלות לאורך המסלול. זו הסיבה לתופעת "הגרדיאנטים הנעלמים": מכפילים הרבה נגזרות קטנות והמכפלה מצטמצמת לאפס. כלל השרשרת אינו דומה ל־backprop; הוא בעצמו backprop.