Distribuzioni dei dati

Inferenza, stima e processo decisionale dai dati

Un singolo valore di centro e una singola dispersione sono soltanto due numeri. La forma completa dei dati (la loro distribuzione) racconta molto di più. Il modo più rapido per vederla è un istogramma: si divide l'intervallo in classi e si conta quanti valori cadono in ciascuna. La sua versione lisciata è un grafico di densità.

Una volta vista la forma, contano due domande: la distribuzione è simmetrica o asimmetrica, e le sue code sono pesanti o leggere?

L'asimmetria (skewness) misura quanto la distribuzione si discosta dalla simmetria. Una distribuzione asimmetrica a destra (positiva) ha una lunga coda che si estende verso destra: redditi, tempi di attesa, dimensioni dei file. Una asimmetrica a sinistra trascina la coda verso sinistra. In una forma asimmetrica a destra, la media sta a destra della mediana, tirata via dalla coda.

Dove si trova nel MLLa forma della distribuzione guida decisioni concrete nel ML. Le distribuzioni delle attivazioni all'interno di una rete possono spostarsi e sviluppare code pesanti, ed è proprio per questo che esistono la batch e la layer normalization. Le distribuzioni della perdita tra i batch rivelano se il modello fallisce in modo uniforme o si inceppa su una minoranza di esempi difficili a coda pesante. E…

▶ Distribuzioni dei dati

← Misure di Dispersione Relazioni tra Variabili →