डेटा के वितरण

डेटा से अनुमान, आकलन और निर्णय निर्माण

एक केंद्र और एक फैलाव बस दो संख्याएँ। डेटा का पूर्ण आकार (इसका वितरण) बहुत अधिक ले। देखने का सबसे तेज़ एक हिस्टोग्राम: परिसर को बिन में काटें और प्रत्येक में कितने मान गिरते गणना। एक चिकना संस्करण एक घनत्व आलेख।

एक बार आकार देखें, दो प्रश्न: क्या यह सममित या तिरछा, और क्या इसकी पूँछें भारी या हल्की?

तिरछापन असममिति मापता। एक दाएँ-तिरछा (धनात्मक) वितरण की लंबी पूँछ दाएँ: आय, प्रतीक्षा समय, फ़ाइल आकार। एक बाएँ-तिरछा बाएँ खिंचता। दाएँ-तिरछे आकार के लिए माध्य मध्यिका के दाएँ, पूँछ से खींचा।

ML में इसका स्थानवितरण आकार वास्तविक ML निर्णय चलाता। सक्रियण वितरण एक नेटवर्क के भीतर ड्रिफ्ट और भारी पूँछें, जो कारण batch/layer normalization। बैचों पर हानि वितरण बताता क्या मॉडल एकसमान विफल या एक भारी-पूँछ अल्पसंख्यक कठिन उदाहरणों पर घुटता। और भारी पूँछें कारण मजबूत हानियाँ (Huber) और ग्रेडिएंट क्लिपिंग मानक।
▶ डेटा के वितरण
← फैलाव के मापचरों के बीच संबंध →