Medidas de Centralidade

Inferência, estimação e tomada de decisão a partir de dados

Antes de modelar dados, é preciso resumi-los honestamente. O resumo mais básico é um único número que responde à pergunta "onde os dados estão centrados?". Há três respostas clássicas, e elas nem sempre concordam — e é precisamente por isso que você precisa conhecer as três.

A média é o ponto de equilíbrio: some todos os valores e divida pela quantidade deles. A mediana é o valor do meio depois de ordená-los. A moda é simplesmente o valor mais frequente.

Imagine os preços pedidos em uma rua curta, em centenas de milhares: 3, 4, 4, 5, 30. Quatro casas comuns e uma mansão à beira-mar. O preço médio é 46/5 = 9.2, contudo, nenhuma casa comum custa algo perto disso. A mediana, o valor do meio uma vez ordenado, é apenas 4 e reporta a casa típica de forma honesta, porque a única mansão não consegue arrastar muito o meio da lista.

Onde isso aparece no MLToda métrica de perda que você reporta é uma medida de centralidade sobre o conjunto de teste. O "erro quadrático médio" calcula a média dos erros ao quadrado; a média é sensível, de modo que algumas poucas previsões catastróficas a dominam. Reporte também o erro mediano quando suspeitar de cauda pesada. Ele lhe diz o que um exemplo típico experimenta, e não o que os poucos piores casos fazem à…
▶ Medidas de Centralidade
← Teorema do Limite CentralMedidas de Dispersão →