כללי כפל ומנה

חשבון דיפרנציאלי ואינטגרלי חד־משתני מיסודות ראשונים

כששתי פונקציות מוכפלות זו בזו, אי אפשר פשוט להכפיל את הנגזרות שלהן. זהו קיצור דרך מפתה — ושגוי. הכלל הנכון מתחשב בכך ששני הגורמים משתנים בו־זמנית.

דמיין מלבן שרוחבו f וגובהו g; שטחו הוא f·g. אם שני הצדדים גדלים מעט, השטח גדל בשתי חזיתות: רצועה הנוספת מהרוחב הגדל, ועוד רצועה מהגובה הגדל. זו הסיבה שלתשובה יש שני איברים, ולא אחד.

תארו לעצמכם גינה מלבנית שגם רוחבה וגם גובהה מורחבים שניהם בו-זמנית. השטח החדש אינו רק רצועה אחת, אתם מרוויחים רצועה לאורך הרוחב הארוך יותר וגם רצועה לאורך הגובה הגבוה יותר. זו הסיבה שלכלל המכפלה יש שני איברים: כאשר שתי כמויות משתנות מוכפלות, הגידול של כל אחת מהן תורם פרוסה משלו לסך הכל.

איפה זה ב־MLהכללים האלה הם אבני הבניין ש־autograd מרכיב. ציון מנורמל כמו הסתברות softmax או משקל קשב (attention) הוא מנה (משהו חלקי סכום), וגזירתו משתמשת בכלל המנה מאחורי הקלעים. שינוי קנה המידה ב־batch-norm, החלוקה בסטיית תקן ב־layer-norm — בכל מקום שבו רשת מחלקת כמות נלמדת אחת באחרת, כלל המנה הוא מה שמנוע הגרדיאנט מיישם.
▶ כללי כפל ומנה
← כללי גזירה בסיסייםכלל השרשרת →