पक्षपात–प्रसरण अपघटन

डेटा से अनुमान, आकलन और निर्णय निर्माण

एक मॉडल जो प्रशिक्षण डेटा पूर्ण फिट वह नए डेटा पर क्यों विफल? पक्षपात–प्रसरण अपघटन सटीक, मात्रात्मक उत्तर। यह एक मॉडल की अपेक्षित भविष्यवाणी त्रुटि को तीन टुकड़ों में, और दो विपरीत खींचते।

पक्षपात² गलत मान्यताओं से त्रुटि: एक मॉडल सत्य पकड़ने के लिए बहुत सरल (अधिक्यष्टि)। प्रसरण विशेष प्रशिक्षण नमूने के प्रति संवेदनशीलता से त्रुटि: एक मॉडल इतना लचीला कि शोर रटता (न्यून्यष्टि)। शोर अपरिहार्य: डेटा में यादृच्छिकता जो कोई मॉडल हटा नहीं सकता।

आकृति में जटिलता खिसकाएँ। मॉडल जितना जटिल, पक्षपात² (हरा) गिरता लेकिन प्रसरण (प्रवाल) बढ़ता। कुल परीक्षण त्रुटि (काला) उनका योग घटा शोर तल: एक U-आकार जिसका तल अनुकूल जटिलता।

ML में इसका स्थानयह अपघटन है अधिक्यष्टि बनाम न्यून्यष्टि का सिद्धांत, और यह है हैसे आप एक शिक्षण वक्र पढ़ते। उच्च प्रशिक्षण और परीक्षण त्रुटि = उच्च पक्षपात = अधिक्यष्टि (बड़ा मॉडल)। निम्न प्रशिक्षण लेकिन उच्च परीक्षण त्रुटि = उच्च प्रसरण = न्यून्यष्टि (नियमित, अधिक डेटा, या सरल)। मॉडल-जटिलता चयन ठीक इस U का तल खोजना।
▶ पक्षपात–प्रसरण अपघटन
← नियमित प्रतिगमनक्रॉस-सत्यापन →