डेटा से अनुमान, आकलन और निर्णय निर्माण
आपने दो वर्गीकारक बनाए और एक 91.0% सटीकता, दूसरा 91.4%। क्या दूसरा वास्तव में बेहतर, या बस एक भाग्यशाली परीक्षण समुच्चय मिला? इसका कठोर उत्तर ML के लिए सांख्यिकीय परीक्षण: मॉडल तुलना की विचित्रियों के अनुकूल परिकल्पना परीक्षण।
सरल चाल, प्रति-फोल्ड सटीकताओं पर एक सादा t-परीक्षण, दोषपूर्ण, क्योंकि क्रॉस-सत्यापन फोल्ड प्रशिक्षण डेटा साझा और इसलिए t-परीक्षण की स्वतंत्रता मान्यता उल्लंघन। यह परीक्षण अति-आत्मविश्वासी, गलत सकारात्मक बढ़ाता। तीन बेहतर उपकरण ML स्थिति ईमानदारी से निपटते।
McNemar परीक्षण दो वर्गीकारकों को वही परीक्षण समुच्चय पर उन उदाहरणों से जहाँ वे असहमत, युग्मित भविष्यवाणियों के लिए ठीक सही प्रश्न। बूटस्ट्रैप परीक्षण समुच्चय प्रतिस्थापन से कई बार पुनःनमूना सटीकता के लिए एक विश्वास अंतराल सीधे, बिना सूत्र। संशोधित युग्मित t-परीक्षण प्रसरण समायोजित CV फोल्डों के बीच अधिच्छादन लेखा, सरल संस्करण की अति-आत्मविश्वासी वापस।