मूल्यांकन मेट्रिक — सांख्यिकी

डेटा से अनुमान, आकलन और निर्णय निर्माण

"सटीकता" एक वर्गीकारक स्कोर करने का स्पष्ट तरीका लगता, जब तक यह आपसे झूठ नहीं बोलता। सही मूल्यांकन मेट्रिक पूरी तरह कार्य और अलग-अलग गलतियों की लागत पर। भ्रम आव्यूह से शुरू: सत्य सकारात्मक (TP), गलत सकारात्मक (FP), सत्य नकारात्मक (TN), और गलत नकारात्मक (FN) की गणना। हर मेट्रिक इन चार संख्याओं से।

दो पूरक मेट्रिक। परिशुद्धता = TP/(TP+FP) पूछती "जो मैंने सकारात्मक चिह्नित, कितने सच में थे?" प्रत्याभूति = TP/(TP+FN) पूछती "वास्तविक सकारात्मकों में, कितने पकड़े?"

वे समझौता: सब चिह्नित और प्रत्याभूति 1 लेकिन परिशुद्धता गड्ढा; केवल सबसे निश्चित चिह्नित और परिशुद्धता उछलती जबकि प्रत्याभूति गिरती। F1 स्कोर उन्हें उनके हार्मोनिक माध्य से संतुलित:

ML में इसका स्थानगलत मेट्रिक चुनना चुपचाप ML परियोजनाएँ बर्बाद। असंतुलित डेटा पर सटीकता अनुकूलित एक मॉडल जो उस वर्ग को अनदेखा जिसकी आप वास्तव में परवाह। जो मेट्रिक आप अनुकूलित वह व्यवहार आपको मिलता, तो सफलता परिशुद्धता/प्रत्याभूति/F1/AUC से पहले परिभाषित, गलत सकारात्मक बनाम गलत नकारात्मक की वास्तविक-दुनिया लागत से मिलाएँ।