יישומים — חדו״ג I · Mathematics for Machine Learning

חשבון דיפרנציאלי ואינטגרלי חד־משתני מיסודות ראשונים

התועלת האמיתית של טיילור בלמידת מכונה היא לינאריזציה: החלפת פונקציה לא־לינארית עקשנית בקו המשיק שלה בקרבת נקודה מעניינת. על פני טווח קטן הקירוב הלינארי כמעט מדויק, ודברים לינאריים קלים בהרבה לניתוח, לחישוב ולהסקה.

הסיגמואיד σ(x) = 1/(1 + e⁻ˣ) הוא אי־הלינאריות המרסקת המוכרת. בקרבת x = 0 הוא עובר דרך ½ עם שיפוע ¼, ולכן הקירוב הלינארי שלו הוא:

מפת רחובות שטוחה מנייר מתייחסת לכדור הארץ העגול כמישור ליד עיר אחת. לאורך כמה קילומטרים העקמומיות היא זעירה מכדי לשנות, ולכן הגיליון השטוח מדויק מספיק כדי לנווט בעזרתו, למרות שהכוכב הוא באמת כדור. לינאריזציה עושה את אותו הדבר לפונקציה: ליד נקודה היא מחליפה את העקומה האמיתית בקו המשיק f(x) ≈ f(0) + f′(0)·x, מדויק מספיק באופן מקומי והרבה יותר קל לעבוד איתו.

איפה זה ב־MLלינאריזציה היא רפלקס יסוד בלמידת מכונה. קירובי הזווית הקטנה והקלט הקטן מפשטים את ניתוח האקטיבציות (סיגמואיד, GELU, softmax) בקרבת נקודת העבודה שלהן. לינאריזציה של רשת סביב משקליה הנוכחיים נותנת את תצוגת הגרעין המשיק הנוירוני (neural tangent kernel) ועומדת בבסיס האופן שבו מנתחים את דינמיקת האימון. וכל אופטימייזר מסדר ראשון, בליבו, סומך על מודל לינארי מקומי של ההפסד לאורך צעד אחד.