Medidas de Dispersão

Inferência, estimação e tomada de decisão a partir de dados

Um centro diz onde os dados estão; a dispersão diz quanto eles oscilam em torno desse centro. Dois conjuntos de dados podem ter a mesma média e ainda assim ser radicalmente diferentes: um bem agrupado, o outro espalhado. A dispersão é a diferença entre eles.

O cavalo de batalha é a variância: a distância quadrática média em relação à média. Sua raiz quadrada, o desvio padrão, está nas mesmas unidades que os dados, o que torna sua interpretação mais fácil.

Duas turmas fazem o mesmo teste e ambas têm média 72, então no papel elas parecem idênticas. Mas a turma A tirou 70, 72, 74 (todos agrupados) enquanto a turma B tirou 50, 72, 94 (espalhados amplamente). Mesmo centro, histórias totalmente diferentes: a dispersão é exatamente o número que as diferencia.

Onde isso aparece no MLA dispersão está por toda parte na confiabilidade de ML. A variância do gradiente ao longo de um mini-batch controla quão ruidoso é cada passo do treinamento; alta variância significa uma descida instável. E quando você reporta a acurácia de um modelo, o desvio padrão entre sementes aleatórias é o que lhe diz se uma melhoria de "+0.3%" é real ou apenas ruído. Um resultado sem a sua dispersão é…

▶ Medidas de Dispersão

← Medidas de Centralidade Distribuições de Dados →