Inferência, estimação e tomada de decisão a partir de dados
A "acurácia" parece a forma óbvia de pontuar um classificador, até o momento em que ela nos engana. A métrica de avaliação certa depende inteiramente da tarefa e do custo de cada tipo de erro. Comece pela matriz de confusão: as contagens de verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos (VN) e falsos negativos (FN). Todas as métricas se constroem a partir destes quatro números.
Duas métricas complementares. A precisão = VP/(VP+FP) pergunta "de tudo o que assinalei como positivo, quanto o era de fato?". A revocação (recall) = VP/(VP+FN) pergunta "dos positivos reais, quantos consegui pegar?".
Há um compromisso entre as duas: assinale tudo e a revocação chega a 1, mas a precisão desaba; assinale apenas os casos mais seguros e a precisão dispara enquanto a revocação cai. O F1 score equilibra-as como a sua média harmônica: