Inferência, estimação e tomada de decisão a partir de dados
A "exatidão" parece a forma óbvia de pontuar um classificador, até ao momento em que nos engana. A métrica de avaliação certa depende inteiramente da tarefa e do custo de cada tipo de erro. Começa pela matriz de confusão: as contagens de verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos (VN) e falsos negativos (FN). Todas as métricas se constroem a partir destes quatro números.
Duas métricas complementares. A precisão = VP/(VP+FP) pergunta "de tudo o que assinalei como positivo, quanto o era de facto?". A revocação (recall) = VP/(VP+FN) pergunta "dos positivos reais, quantos consegui apanhar?".
Há um compromisso entre as duas: assinala tudo e a revocação chega a 1, mas a precisão desaba; assinala apenas os casos mais seguros e a precisão dispara enquanto a revocação cai. O F1 score equilibra-as como a sua média harmónica: