डेटा से अनुमान, आकलन और निर्णय निर्माण
आप एक मॉडल को इसकी प्रशिक्षण त्रुटि से नहीं आँक सकते; उसने वह डेटा देखा, तो रटकर धोखा। आपको कभी न देखे डेटा पर त्रुटि। लेकिन एक एकल परीक्षण समुच्चय हटाना डेटा बर्बाद और एक शोरी अनुमान। क्रॉस-सत्यापन दोनों समस्याएँ हल।
k-गुना क्रॉस-सत्यापन में, डेटा को k समान फोल्ड में बाँटें। k−1 पर प्रशिक्षण, हटाए एक पर सत्यापन, और घुमाएँ ताकि हर फोल्ड एक बार सत्यापन समुच्चय। k सत्यापन त्रुटियों का औसत मॉडल सामान्यीकरण का एक स्थिर अनुमान।
क्रॉस-वैलिडेशन (Cross-validation) आपके वास्तविक-परीक्षा स्कोर की भविष्यवाणी करने के लिए कई अभ्यास परीक्षाएं देने जैसा है। यदि आपने केवल उन सवालों पर खुद का मूल्यांकन किया जिनके उत्तर आपने पहले ही याद कर लिए थे, तो आप बेतहाशा अधिक अनुमान लगायेंगे, इसलिए आप हर बार प्रश्नों का एक ताज़ा बैच अलग रखते हैं, उन पर खुद को स्कोर करते हैं, और घुमाते हैं कि किस बैच को रोका गया है। सभी अभ्यास बैठकों में अपने स्कोर का औसत निकालने से आपको किसी भी एक मॉक परीक्षा की तुलना में बहुत अधिक स्थिर पूर्वानुमान मिलता है कि आप उस दिन कैसा प्रदर्शन करेंगे।