Medidas de Dispersão

Inferência, estimação e tomada de decisão a partir de dados

Um centro diz onde estão os dados; a dispersão diz quanto eles oscilam em torno desse centro. Dois conjuntos de dados podem ter a mesma média e ainda assim ser radicalmente diferentes: um bem agrupado, o outro espalhado. A dispersão é a diferença entre eles.

O cavalo de batalha é a variância: a distância quadrática média em relação à média. A sua raiz quadrada, o desvio padrão, está nas mesmas unidades que os dados, o que torna a sua interpretação mais fácil.

Duas turmas fazem o mesmo teste e ambas têm média de 72, pelo que no papel parecem idênticas. Mas a turma A pontuou 70, 72, 74 (todos agrupados), enquanto a turma B pontuou 50, 72, 94 (amplamente dispersos). O mesmo centro, histórias completamente diferentes: a dispersão é exatamente o número que as distingue.

Onde isto aparece no MLA dispersão está por toda a parte na fiabilidade de ML. A variância do gradiente ao longo de um mini-batch controla quão ruidoso é cada passo do treino; alta variância significa uma descida instável. E quando reportas a exatidão de um modelo, o desvio padrão entre sementes aleatórias é o que te diz se uma melhoria de "+0.3%" é real ou apenas ruído. Um resultado sem a sua dispersão é meio…

▶ Medidas de Dispersão

← Medidas de Centralidade Distribuições de Dados →