Varianza

La matematica dell'incertezza

Due scommesse possono avere la stessa media e sembrare completamente diverse: "+1 o −1" contro "+1000 o −1000" hanno entrambe media 0, ma una è molto più rischiosa. La varianza misura proprio questa dispersione, la distanza quadratica media di X dalla sua media μ = E[X]:

Elevare al quadrato mantiene positive le deviazioni (così non si annullano a vicenda) e penalizza più duramente gli scostamenti grandi. Per tornare alle unità originali si prende la radice quadrata: la deviazione standard σ = √Var(X).

In pratica è più rapida la formula abbreviata, "la media del quadrato meno il quadrato della media":

Dove si trova nel MLLa varianza di uno stimatore del gradiente determina quanto è rumoroso ciascun passo di addestramento. Un gradiente di mini-batch è una media di gradienti per singolo esempio; per Bienaymé, mediare n stime indipendenti divide la varianza per n, quindi il rumore decresce come 1/√n in deviazione standard. È proprio questo il motivo per cui batch più grandi danno passi più regolari e a bassa…
▶ Varianza
← AttesaDistribuzioni Discrete Chiave →