क्रॉस-सत्यापन — सांख्यिकी

डेटा से अनुमान, आकलन और निर्णय निर्माण

आप एक मॉडल को इसकी प्रशिक्षण त्रुटि से नहीं आँक सकते; उसने वह डेटा देखा, तो रटकर धोखा। आपको कभी न देखे डेटा पर त्रुटि। लेकिन एक एकल परीक्षण समुच्चय हटाना डेटा बर्बाद और एक शोरी अनुमान। क्रॉस-सत्यापन दोनों समस्याएँ हल।

k-गुना क्रॉस-सत्यापन में, डेटा को k समान फोल्ड में बाँटें। k−1 पर प्रशिक्षण, हटाए एक पर सत्यापन, और घुमाएँ ताकि हर फोल्ड एक बार सत्यापन समुच्चय। k सत्यापन त्रुटियों का औसत मॉडल सामान्यीकरण का एक स्थिर अनुमान।

क्रॉस-वैलिडेशन (Cross-validation) आपके वास्तविक-परीक्षा स्कोर की भविष्यवाणी करने के लिए कई अभ्यास परीक्षाएं देने जैसा है। यदि आपने केवल उन सवालों पर खुद का मूल्यांकन किया जिनके उत्तर आपने पहले ही याद कर लिए थे, तो आप बेतहाशा अधिक अनुमान लगायेंगे, इसलिए आप हर बार प्रश्नों का एक ताज़ा बैच अलग रखते हैं, उन पर खुद को स्कोर करते हैं, और घुमाते हैं कि किस बैच को रोका गया है। सभी अभ्यास बैठकों में अपने स्कोर का औसत निकालने से आपको किसी भी एक मॉक परीक्षा की तुलना में बहुत अधिक स्थिर पूर्वानुमान मिलता है कि आप उस दिन कैसा प्रदर्शन करेंगे।

ML में इसका स्थानक्रॉस-सत्यापन है हैसे ML चिकित्सक मॉडल और हाइपरपैरामीटर चुनते बिना खुद को बेवकूफ बनाए। यह सामान्यीकरण त्रुटि (जो पक्षपात–प्रसरण अपघटन के बारे) सभी डेटा कुशलता से लागू अनुमान। और यह डेटा क्षरण के विरुद्ध अग्रिपंक्ति: वह शांत बग जहाँ परीक्षण वितरण से सूचना प्रशिक्षण में घुसती और सुंदर, पूर्णतः नकली सत्यापन स्कोर।