שונות

המתמטיקה של אי־ודאות

שני הימורים יכולים לחלוק את אותו ממוצע ולהרגיש לגמרי אחרת: "+1 או −1" מול "+1000 או −1000" שניהם ממוצעים ל־0, אבל אחד פראי. שונות מודדת את הפריסה הזו, המרחק הריבועי הממוצע של X מהממוצע שלו μ = E[X]:

ההעלאה בריבוע שומרת את הסטיות חיוביות (כדי שלא יתבטלו) ומענישה סטיות גדולות בחומרה רבה יותר. כדי לחזור ליחידות המקוריות, קח שורש: סטיית התקן σ = √Var(X).

בפועל נוסחת הקיצור מהירה יותר, "ממוצע הריבוע פחות ריבוע הממוצע":

איפה זה ב־MLהשונות של אומד גרדיאנט מחליטה כמה רועש כל צעד אימון. גרדיאנט mini-batch הוא ממוצע של גרדיאנטים לכל דוגמה; לפי Bienaymé, ממוצע n אומדים בלתי־תלויים מחלק את השונות ב־n, אז הרעש יורד כמו 1/√n בסטיית תקן. זו הסיבה ש־batch גדול יותר נותן צעדים חלקים יותר, בעלי שונות נמוכה יותר, ולמה טריקים לצמצום שונות מזרזים אימון.
▶ שונות
← תוחלתהתפלגויות בדידות מרכזיות →