ML के लिए सांख्यिकीय परीक्षण — सांख्यिकी

डेटा से अनुमान, आकलन और निर्णय निर्माण

आपने दो वर्गीकारक बनाए और एक 91.0% सटीकता, दूसरा 91.4%। क्या दूसरा वास्तव में बेहतर, या बस एक भाग्यशाली परीक्षण समुच्चय मिला? इसका कठोर उत्तर ML के लिए सांख्यिकीय परीक्षण: मॉडल तुलना की विचित्रियों के अनुकूल परिकल्पना परीक्षण।

सरल चाल, प्रति-फोल्ड सटीकताओं पर एक सादा t-परीक्षण, दोषपूर्ण, क्योंकि क्रॉस-सत्यापन फोल्ड प्रशिक्षण डेटा साझा और इसलिए t-परीक्षण की स्वतंत्रता मान्यता उल्लंघन। यह परीक्षण अति-आत्मविश्वासी, गलत सकारात्मक बढ़ाता। तीन बेहतर उपकरण ML स्थिति ईमानदारी से निपटते।

McNemar परीक्षण दो वर्गीकारकों को वही परीक्षण समुच्चय पर उन उदाहरणों से जहाँ वे असहमत, युग्मित भविष्यवाणियों के लिए ठीक सही प्रश्न। बूटस्ट्रैप परीक्षण समुच्चय प्रतिस्थापन से कई बार पुनःनमूना सटीकता के लिए एक विश्वास अंतराल सीधे, बिना सूत्र। संशोधित युग्मित t-परीक्षण प्रसरण समायोजित CV फोल्डों के बीच अधिच्छादन लेखा, सरल संस्करण की अति-आत्मविश्वासी वापस।

ML में इसका स्थानयह कठोरता है जो एक वास्तविक परिणाम को लीडरबोर्ड शोर से अलग। मॉडल A को B से बेहतर दावा से पहले, McNemar परीक्षण (वही परीक्षण समुच्चय) या सटीकता अंतर पर एक बूटस्ट्रैप CI चलाएँ। पूरा कारण एक परिणाम "91.2% ± 0.4%" रिपोर्ट बजाय केवल "91.2%" ताकि एक पाठक ठीक इस प्रकार का परीक्षण आँख से लागू।