Métricas de Avaliação

Inferência, estimação e tomada de decisão a partir de dados

A "exatidão" parece a forma óbvia de pontuar um classificador, até ao momento em que nos engana. A métrica de avaliação certa depende inteiramente da tarefa e do custo de cada tipo de erro. Começa pela matriz de confusão: as contagens de verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos (VN) e falsos negativos (FN). Todas as métricas se constroem a partir destes quatro números.

Duas métricas complementares. A precisão = VP/(VP+FP) pergunta "de tudo o que assinalei como positivo, quanto o era de facto?". A revocação (recall) = VP/(VP+FN) pergunta "dos positivos reais, quantos consegui apanhar?".

Há um compromisso entre as duas: assinala tudo e a revocação chega a 1, mas a precisão desaba; assinala apenas os casos mais seguros e a precisão dispara enquanto a revocação cai. O F1 score equilibra-as como a sua média harmónica:

Onde isto aparece no MLEscolher a métrica errada arruína projetos de ML em silêncio. Otimizar a exatidão em dados desequilibrados produz um modelo que ignora justamente a classe que nos interessa. A métrica que otimizas é o comportamento que obténs, por isso define o sucesso com precisão/revocação/F1/AUC antes de treinar, adequando-o ao custo real dos falsos positivos em relação aos falsos negativos.

▶ Métricas de Avaliação

← Validação Cruzada Testes Estatísticos para ML →