מדדי פיזור — סטטיסטיקה · Mathematics for Machine Learning

המרכז מספר לך היכן הנתונים יושבים; הפיזור מספר לך עד כמה הם מתנדנדים סביב אותו מרכז. שתי קבוצות נתונים יכולות לחלוק את אותו ממוצע ובכל זאת להיות שונות לחלוטין: אחת מקובצת בצפיפות, אחת מפוזרת לכל עבר. הפיזור הוא ההבדל.

סוס העבודה הוא השונות: המרחק הריבועי הממוצע מן הממוצע. השורש שלה, סטיית התקן, נמדד באותן יחידות כמו הנתונים, ולכן קל יותר לפרש אותו.

שתי כיתות ניגשות לאותו בוחן ושתיהן ממוצעות 72, כך שעל הנייר הן נראות זהות. אבל כיתה A קיבלה 70, 72, 74 (כולם מקובצים יחד) בעוד כיתה B קיבלה 50, 72, 94 (מפוזרים רחב). אותו מרכז, סיפורים שונים לחלוטין: פיזור הוא בדיוק המספר שמבדיל ביניהן.

איפה זה ב־MLהפיזור מצוי בכל מקום באמינות של ML. שונות הגרדיאנט על פני mini-batch קובעת עד כמה רועש כל צעד אימון; שונות גבוהה משמעה ירידה תנודתית. וכשאתה מדווח על דיוק של מודל, סטיית התקן על פני זרעים אקראיים היא זו שמגלה לך אם שיפור של "+0.3%" אמיתי או סתם רעש. תוצאה ללא הפיזור שלה היא חצי תוצאה.