प्रसरण

अनिश्चितता का गणित

दो शर्तें समान औसत और बिल्कुल अलग अनुभव: "+1 या −1" बनाम "+1000 या −1000" दोनों 0 औसत, लेकिन एक जंगली। प्रसरण वह फैलाव मापता, X के अपने माध्य μ = E[X] से औसत वर्ग दूरी:

वर्ग विचलन धनात्मक रखता (ताकि वे काट नहीं) और बड़े विचलन कठोर दंडित। मूल इकाइयों में वापस, वर्गमूल: मानक विचलन σ = √Var(X)।

व्यवहार में संक्षिप्त सूत्र तेज़, "वर्ग का माध्य घटा माध्य का वर्ग":

ML में इसका स्थानएक ग्रेडिएंट अनुमानक का प्रसरण तय कि प्रत्येक प्रशिक्षण चरण कितना शोरी। एक मिनी-बैच ग्रेडिएंट प्रति-उदाहरण ग्रेडिएंट का औसत; Bienaymé से, n स्वतंत्र अनुमान औसत प्रसरण n से भाग, तो शोर मानक विचलन में 1/√n गिरता। वही कारण बड़े बैच चिकने, निम्न-प्रसरण चरण देते, और प्रसरण-न्यूनीकरण ट्रिक्स प्रशिक्षण तेज़।
▶ प्रसरण
← प्रत्याशाप्रमुख असतत वितरण →