Métricas de Avaliação

Inferência, estimação e tomada de decisão a partir de dados

A "acurácia" parece a forma óbvia de pontuar um classificador, até o momento em que ela nos engana. A métrica de avaliação certa depende inteiramente da tarefa e do custo de cada tipo de erro. Comece pela matriz de confusão: as contagens de verdadeiros positivos (VP), falsos positivos (FP), verdadeiros negativos (VN) e falsos negativos (FN). Todas as métricas se constroem a partir destes quatro números.

Duas métricas complementares. A precisão = VP/(VP+FP) pergunta "de tudo o que assinalei como positivo, quanto o era de fato?". A revocação (recall) = VP/(VP+FN) pergunta "dos positivos reais, quantos consegui pegar?".

Há um compromisso entre as duas: assinale tudo e a revocação chega a 1, mas a precisão desaba; assinale apenas os casos mais seguros e a precisão dispara enquanto a revocação cai. O F1 score equilibra-as como a sua média harmônica:

Onde isso aparece no MLEscolher a métrica errada arruína projetos de ML em silêncio. Otimizar a acurácia em dados desbalanceados produz um modelo que ignora justamente a classe que nos interessa. A métrica que você otimiza é o comportamento que você obtém, por isso defina o sucesso com precisão/revocação/F1/AUC antes de treinar, adequando-o ao custo real dos falsos positivos em relação aos falsos negativos.

▶ Métricas de Avaliação

← Validação Cruzada Testes Estatísticos para ML →