Distribuições de Dados

Inferência, estimação e tomada de decisão a partir de dados

Um único centro e uma única dispersão são apenas dois números. A forma completa dos dados (a sua distribuição) carrega muito mais informação. A maneira mais rápida de a ver é um histograma: divide a amplitude em intervalos (bins) e conta quantos valores caem em cada um. Uma versão suavizada é um gráfico de densidade.

Assim que consegues ver a forma, duas perguntas importam: ela é simétrica ou assimétrica, e as suas caudas são pesadas ou leves?

A assimetria mede a falta de simetria. Uma distribuição assimétrica à direita (positiva) tem uma cauda longa que se estende para a direita: rendimentos, tempos de espera, tamanhos de ficheiro. Uma distribuição assimétrica à esquerda prolonga-se para a esquerda. Numa forma assimétrica à direita, a média fica à direita da mediana, puxada pela cauda.

Onde isto aparece no MLA forma da distribuição orienta decisões reais de ML. As distribuições de ativação dentro de uma rede podem derivar e desenvolver caudas pesadas, e é por isso que existem a normalização por batch e por camada. As distribuições de perda entre batches revelam se o teu modelo falha de maneira uniforme ou se engasga numa minoria de cauda pesada de exemplos difíceis. E as caudas pesadas são o motivo…
▶ Distribuições de Dados
← Medidas de DispersãoRelações Entre Variáveis →