पक्षपात–प्रसरण अपघटन — सांख्यिकी

डेटा से अनुमान, आकलन और निर्णय निर्माण

एक मॉडल जो प्रशिक्षण डेटा पूर्ण फिट वह नए डेटा पर क्यों विफल? पक्षपात–प्रसरण अपघटन सटीक, मात्रात्मक उत्तर। यह एक मॉडल की अपेक्षित भविष्यवाणी त्रुटि को तीन टुकड़ों में, और दो विपरीत खींचते।

पक्षपात² गलत मान्यताओं से त्रुटि: एक मॉडल सत्य पकड़ने के लिए बहुत सरल (अधिक्यष्टि)। प्रसरण विशेष प्रशिक्षण नमूने के प्रति संवेदनशीलता से त्रुटि: एक मॉडल इतना लचीला कि शोर रटता (न्यून्यष्टि)। शोर अपरिहार्य: डेटा में यादृच्छिकता जो कोई मॉडल हटा नहीं सकता।

आकृति में जटिलता खिसकाएँ। मॉडल जितना जटिल, पक्षपात² (हरा) गिरता लेकिन प्रसरण (प्रवाल) बढ़ता। कुल परीक्षण त्रुटि (काला) उनका योग घटा शोर तल: एक U-आकार जिसका तल अनुकूल जटिलता।

ML में इसका स्थानयह अपघटन है अधिक्यष्टि बनाम न्यून्यष्टि का सिद्धांत, और यह है हैसे आप एक शिक्षण वक्र पढ़ते। उच्च प्रशिक्षण और परीक्षण त्रुटि = उच्च पक्षपात = अधिक्यष्टि (बड़ा मॉडल)। निम्न प्रशिक्षण लेकिन उच्च परीक्षण त्रुटि = उच्च प्रसरण = न्यून्यष्टि (नियमित, अधिक डेटा, या सरल)। मॉडल-जटिलता चयन ठीक इस U का तल खोजना।