Метрики за оценка — Статистика

„Точност“ (Accuracy) звучи като очевидния начин за оценка на класификатор, докато не ви подведе. Правилната метрика за оценка (evaluation metric) зависи изцяло от задачата и от „цената“ на различните видове грешки. Всичко започва с матрицата на объркване (confusion matrix): броя на истински положителните (TP), фалшиво положителните (FP), истински отрицателните (TN) и фалшиво отрицателните (FN). Всяка метрика се изгражда въз основа на тези четири числа.

Две допълващи се метрики. Прецизност (Precision) = TP/(TP+FP) отговаря на въпроса: „от всички случаи, които маркирах като положителни, колко действително бяха такива?“ Обхват (Recall / Чувствителност) = TP/(TP+FN) отговаря на въпроса: „от всички реални положителни случаи, колко успях да хвана?“

Между тях има компромис: ако маркирате всичко като положително, обхватът (recall) ще бъде 1, но прецизността ще се срине; ако маркирате само най-сигурните случаи, прецизността расте, докато обхватът спада. F1 резултатът (F1 score) ги балансира чрез тяхната хармонична средна стойност:

Къде се използва това в MLИзборът на грешна метрика тихо проваля много ML проекти. Оптимизирането за точност (accuracy) при небалансирани данни създава модел, който просто игнорира класа, който всъщност ви интересува. Поведението, което получавате, зависи изцяло от метриката, която оптимизирате – затова дефинирайте успеха чрез прецизност / recall / F1 / AUC преди да започнете обучението, съобразявайки се с реалната цена…