התפלגויות של נתונים

הסקה, אומדן וקבלת החלטות מנתונים

מרכז יחיד ופיזור יחיד הם רק שני מספרים. הצורה המלאה של הנתונים (ההתפלגות שלהם) נושאת הרבה יותר מידע. הדרך המהירה ביותר לראות אותה היא היסטוגרמה: מחלקים את התחום לתאים וסופרים כמה ערכים נופלים בכל תא. גרסה מוחלקת שלה היא גרף צפיפות.

ברגע שאפשר לראות את הצורה, שתי שאלות חשובות: האם היא סימטרית או אסימטרית, והאם הזנבות שלה כבדים או קלים?

אסימטריה מודדת חוסר סימטריה. התפלגות נטויה ימינה (חיובית) בעלת זנב ארוך הנמשך ימינה: הכנסות, זמני המתנה, גודלי קבצים. התפלגות נטויה שמאלה נגררת שמאלה. בצורה הנטויה ימינה הממוצע יושב מימין לחציון, נגרר בידי הזנב.

איפה זה ב־MLצורת ההתפלגות מנחה החלטות אמיתיות ב־ML. התפלגויות אקטיבציה בתוך רשת עלולות לנדוד ולפתח זנבות כבדים, וזו הסיבה שקיימת נורמליזציית batch/layer. התפלגויות ההפסד על פני batches חושפות אם המודל נכשל באופן אחיד או נחנק על מיעוט בעל זנב כבד של דוגמאות קשות. וזנבות כבדים הם הסיבה לכך שהפסדים עמידים (Huber) וקיצוץ גרדיאנט הם נוהג סטנדרטי.
▶ התפלגויות של נתונים
← מדדי פיזורקשרים בין משתנים →