Medidas de Centralidade

Inferência, estimação e tomada de decisão a partir de dados

Antes de modelar dados, é preciso resumi-los honestamente. O resumo mais básico é um único número que responde à pergunta "onde estão centrados os dados?". Há três respostas clássicas, e nem sempre concordam — e é precisamente por isso que precisas de conhecer as três.

A média é o ponto de equilíbrio: soma todos os valores e divide pela quantidade deles. A mediana é o valor do meio depois de os ordenares. A moda é simplesmente o valor mais frequente.

Imagine os preços base numa pequena rua, em centenas de milhares: 3, 4, 4, 5, 30. Quatro casas comuns e uma mansão à beira-mar. O preço médio é 46/5 = 9.2, contudo, nenhuma casa comum custa sequer um valor aproximado. A mediana, o valor central depois de ordenado, é apenas 4 e representa a casa típica de forma honesta, porque a mansão isolada não consegue puxar o meio da lista para muito longe.

Onde isto aparece no MLToda métrica de perda que reportas é uma medida de centralidade sobre o conjunto de teste. O "erro quadrático médio" calcula a média dos erros ao quadrado; a média é sensível, de modo que algumas poucas previsões catastróficas a dominam. Reporta também o erro mediano quando suspeitares de cauda pesada. Diz-te o que um exemplo típico experimenta, e não o que os poucos piores casos fazem à média.
▶ Medidas de Centralidade
← Teorema do Limite CentralMedidas de Dispersão →