Distribuições de Dados

Inferência, estimação e tomada de decisão a partir de dados

Um único centro e uma única dispersão são apenas dois números. A forma completa dos dados (a sua distribuição) carrega muito mais informação. A maneira mais rápida de vê-la é um histograma: divida a amplitude em intervalos (bins) e conte quantos valores caem em cada um. Uma versão suavizada é um gráfico de densidade.

Uma vez que você consegue ver a forma, duas perguntas importam: ela é simétrica ou assimétrica, e suas caudas são pesadas ou leves?

A assimetria mede a falta de simetria. Uma distribuição assimétrica à direita (positiva) tem uma cauda longa que se estende para a direita: rendas, tempos de espera, tamanhos de arquivo. Uma distribuição assimétrica à esquerda se prolonga para a esquerda. Numa forma assimétrica à direita, a média fica à direita da mediana, puxada pela cauda.

Onde isso aparece no MLA forma da distribuição orienta decisões reais de ML. As distribuições de ativação dentro de uma rede podem derivar e desenvolver caudas pesadas, e é por isso que existem a normalização por batch e por camada. As distribuições de perda entre batches revelam se o seu modelo falha de maneira uniforme ou se engasga numa minoria de cauda pesada de exemplos difíceis. E as caudas pesadas são o motivo…
▶ Distribuições de Dados
← Medidas de DispersãoRelações Entre Variáveis →