מדדי מרכז

הסקה, אומדן וקבלת החלטות מנתונים

לפני שבונים מודל לנתונים, צריך לסכם אותם ביושר. הסיכום הבסיסי ביותר הוא מספר יחיד שעונה על השאלה "היכן הנתונים ממוקמים?" יש שלוש תשובות קלאסיות, והן אינן תמיד מסכימות זו עם זו — וזו בדיוק הסיבה שכדאי להכיר את כולן.

הממוצע הוא נקודת האיזון: מחברים את כל הערכים ומחלקים במספרם. החציון הוא הערך האמצעי לאחר מיון. השכיח הוא פשוט הערך השכיח ביותר.

דמיינו את המחירים המבוקשים ברחוב קצר אחד, במאות אלפים: 3, 4, 4, 5, 30. ארבעה בתים רגילים ואחוזה אחת על קו המים. המחיר הממוצע הוא 46/5 = 9.2, אולם אף בית רגיל אינו עולה קרוב לזה. החציון, הערך האמצעי לאחר מיון, הוא רק 4 ומדווח על הבית הטיפוסי בכנות, משום שהאחוזה הבודדת אינה יכולה לגרור את אמצע הרשימה רחוק מדי.

איפה זה ב־MLכל מדד הפסד שאתה מדווח הוא מדד מרכז על קבוצת המבחן. "שגיאה ריבועית ממוצעת" מחשבת ממוצע של השגיאות בריבוע; הממוצע רגיש, ולכן מעט חיזויים קטסטרופליים שולטים בו. דווח גם על החציון של השגיאה כשאתה חושד בזנב כבד. הוא מספר לך מה חווה דוגמה טיפוסית, ולא מה עושות הדוגמאות הגרועות לממוצע.
▶ מדדי מרכז
← משפט הגבול המרכזימדדי פיזור →