Variância

A matemática da incerteza

Duas apostas podem ter a mesma média e parecer completamente diferentes: "+1 ou −1" e "+1000 ou −1000" têm ambas média 0, mas uma é muito mais arriscada. A variância mede essa dispersão, a distância quadrática média de X à sua média μ = E[X]:

Elevar ao quadrado mantém os desvios positivos (para que não se cancelem) e penaliza com mais força os grandes afastamentos. Para voltar às unidades originais, tire a raiz quadrada: o desvio padrão σ = √Var(X).

Na prática, a fórmula abreviada é mais rápida, "a média do quadrado menos o quadrado da média":

Onde isso aparece no MLA variância de um estimador de gradiente determina quão ruidoso é cada passo de treinamento. Um gradiente de mini-batch é uma média de gradientes por exemplo; pela identidade de Bienaymé, tirar a média de n estimativas independentes divide a variância por n, de modo que o ruído cai como 1/√n no desvio padrão. É exatamente por isso que batches maiores dão passos mais suaves e de menor variância, e…
▶ Variância
← ExpectativaDistribuições Discretas Chave →