مقاييس التشتت

الاستدلال والتقدير واتخاذ القرار من البيانات

يخبرك المركز أين تقع البيانات؛ بينما يخبرك التشتت بمقدار اهتزازها حول ذلك المركز. يمكن أن تتشارك مجموعتان من البيانات في المتوسط نفسه وتكونان مختلفتين تمامًا: واحدة متجمّعة بإحكام، والأخرى منتشرة في كل مكان. التشتت هو الفرق.

الأداة الأساسية هي التباين: متوسط مربّع المسافة عن المتوسط. وجذره التربيعي، الانحراف المعياري، يكون بالوحدات نفسها التي للبيانات، ما يجعل تفسيره أسهل.

يخضع فصلان لنفس الاختبار وكلاهما بمتوسط 72، لذا يبدوان متطابقين على الورق. لكن الفصل A سجل 70, 72, 74 (الجميع متجمعون معًا) بينما الفصل B سجل 50, 72, 94 (متناثرون على نطاق واسع). نفس المركز، لكن بقصص مختلفة تمامًا: التشتت هو بالضبط الرقم الذي يميز بينهما.

أين يظهر هذا في تعلّم الآلةالتشتت موجود في كل مكان في موثوقية تعلّم الآلة. يتحكّم تباين التدرّج عبر الدفعة المصغّرة في مقدار ضوضاء كل خطوة تدريب؛ فالتباين العالي يعني نزولًا متقطّعًا. وعندما تُبلّغ عن دقّة نموذج، فإن الانحراف المعياري عبر البذور العشوائية هو ما يخبرك ما إذا كان تحسّن «+0.3%» حقيقيًا أم مجرد ضوضاء. النتيجة بدون تشتتها هي نصف نتيجة.
▶ مقاييس التشتت
← مقاييس النزعة المركزيةتوزيعات البيانات →