Misure di Dispersione

Inferenza, stima e processo decisionale dai dati

Un valore di centro ti dice dove stanno i dati; la dispersione ti dice quanto oscillano attorno a quel centro. Due insiemi di dati possono avere la stessa media ed essere radicalmente diversi: uno strettamente concentrato, l'altro sparpagliato ovunque. La dispersione è ciò che li distingue.

Lo strumento principale è la varianza: la distanza quadratica media dalla media. La sua radice quadrata, la deviazione standard, è espressa nelle stesse unità dei dati, quindi è più facile da interpretare.

Due classi affrontano lo stesso quiz ed entrambe hanno una media di 72, quindi sulla carta sembrano identiche. Ma la classe A ha ottenuto 70, 72, 74 (tutti raggruppati) mentre la classe B ha ottenuto 50, 72, 94 (molto sparsi). Stesso centro, storie completamente diverse: la dispersione è esattamente il numero che le distingue.

Dove si trova nel MLLa dispersione è ovunque nell'affidabilità del ML. La varianza del gradiente su un mini-batch controlla quanto è rumoroso ciascun passo di addestramento; una varianza elevata significa una discesa irregolare. E quando riporti l'accuratezza di un modello, la deviazione standard tra i diversi seed casuali ti dice se un miglioramento dello "+0,3%" è reale o solo rumore. Un risultato privo della sua…
▶ Misure di Dispersione
← Misure di Tendenza CentraleDistribuzioni dei dati →