क्रॉस-सत्यापन

डेटा से अनुमान, आकलन और निर्णय निर्माण

आप एक मॉडल को इसकी प्रशिक्षण त्रुटि से नहीं आँक सकते; उसने वह डेटा देखा, तो रटकर धोखा। आपको कभी न देखे डेटा पर त्रुटि। लेकिन एक एकल परीक्षण समुच्चय हटाना डेटा बर्बाद और एक शोरी अनुमान। क्रॉस-सत्यापन दोनों समस्याएँ हल।

k-गुना क्रॉस-सत्यापन में, डेटा को k समान फोल्ड में बाँटें। k−1 पर प्रशिक्षण, हटाए एक पर सत्यापन, और घुमाएँ ताकि हर फोल्ड एक बार सत्यापन समुच्चय। k सत्यापन त्रुटियों का औसत मॉडल सामान्यीकरण का एक स्थिर अनुमान।

क्रॉस-वैलिडेशन (Cross-validation) आपके वास्तविक-परीक्षा स्कोर की भविष्यवाणी करने के लिए कई अभ्यास परीक्षाएं देने जैसा है। यदि आपने केवल उन सवालों पर खुद का मूल्यांकन किया जिनके उत्तर आपने पहले ही याद कर लिए थे, तो आप बेतहाशा अधिक अनुमान लगायेंगे, इसलिए आप हर बार प्रश्नों का एक ताज़ा बैच अलग रखते हैं, उन पर खुद को स्कोर करते हैं, और घुमाते हैं कि किस बैच को रोका गया है। सभी अभ्यास बैठकों में अपने स्कोर का औसत निकालने से आपको किसी भी एक मॉक परीक्षा की तुलना में बहुत अधिक स्थिर पूर्वानुमान मिलता है कि आप उस दिन कैसा प्रदर्शन करेंगे।

ML में इसका स्थानक्रॉस-सत्यापन है हैसे ML चिकित्सक मॉडल और हाइपरपैरामीटर चुनते बिना खुद को बेवकूफ बनाए। यह सामान्यीकरण त्रुटि (जो पक्षपात–प्रसरण अपघटन के बारे) सभी डेटा कुशलता से लागू अनुमान। और यह डेटा क्षरण के विरुद्ध अग्रिपंक्ति: वह शांत बग जहाँ परीक्षण वितरण से सूचना प्रशिक्षण में घुसती और सुंदर, पूर्णतः नकली सत्यापन स्कोर।
▶ क्रॉस-सत्यापन
← पक्षपात–प्रसरण अपघटनमूल्यांकन मेट्रिक →