קמירות

חשבון דיפרנציאלי ואינטגרלי רב־משתני מיסודות ראשונים

חלק מבעיות האופטימיזציה קלות וחלק קשות, ותכונה אחת מתווה את הגבול: קמירות. לפונקציה קמורה יש צורת קערה יחידה, ללא תחתיות מדומות, ולכן מציאת מקום שבו הגרדיאנט מתאפס פירושה שמצאת את המינימום הגלובלי. אין נקודות אוכף, אין מלכודות מקומיות.

התמונה המגדירה: פונקציה היא קמורה אם המיתר הישר שבין כל שתי נקודות על הגרף שלה נמצא מעל הגרף עצמו (או עליו). הפונקציה לעולם אינה בולטת מעל המיתרים של עצמה.

השוו קערת סלט חלקה לקרטון ביצים גבשושי. לקערה יש תחתית אמיתית אחת: גלגלו גולה פנימה מכל מקום והיא תמיד תתייצב באותה נקודה נמוכה. קרטון הביצים מלא במלכודות קטנות, כל אחת היא תחתית מדומה שתופסת את הגולה לפני התחתית הנמוכה ביותר. פונקציה קמורה היא קערת הסלט, והמינימום המובטח היחיד הזה הוא מה שהופך אותה לקלה לאופטימיזציה.

איפה זה ב־MLהחלוקה לקמור ולא־קמור מסבירה הרבה מאוד מלמידת המכונה. רגרסיה לינארית ולוגיסטית הן קמורות, ולכן ניתן להוכיח שגרדיאנט ירידה מגיע לאופטימום הגלובלי וכל שתי ריצות מסכימות ביניהן. רשתות עמוקות הן לא־קמורות בפראות, מלאות בנקודות קריטיות, ותוצאותיהן משתנות לפי האתחול והאקראיות. הפער הזה הוא הסיבה שלמידת מכונה קלאסית מרגישה אמינה ולמידה עמוקה מרגישה הפכפכה. אי־שוויון ינסן, מצידו, הוא אבן הפינה של ה־ELBO…
▶ קמירות
← נקודות קריטיות ב־Rⁿאופטימיזציה עם אילוצים →