Varianza

Las matemáticas de la incertidumbre

Dos apuestas pueden tener la misma media pero sentirse completamente diferentes: "+1 o −1" versus "+1000 o −1000", ambas tienen una media de 0, pero una es muy volátil. Varianza mide esa dispersión, el promedio del cuadrado de la distancia de X a su media μ = E[X]:

Elevado al cuadrado mantiene las desviaciones positivas (para que no se cancelen) y castiga más fuertemente los grandes errores. Para volver a las unidades originales, toma la raíz cuadrada: el desvío estándar σ = √Var(X).

En la práctica la fórmula abreviada es más rápida, "el promedio del cuadrado menos el cuadrado del promedio":

Dónde aparece en el MLLa varianza de un estimador del gradiente determina cuánto ruido tiene cada paso de entrenamiento. Un gradiente por mini-lote es una media de los gradientes por ejemplo; según Bienaymé, promediar n estimaciones independientes divide la varianza por n, así que el ruido cae como 1/√n en desviación estándar. Eso es toda la razón por la cual lotes más grandes dan pasos suaves y de menor varianza, y…
▶ Varianza
← EsperanzaDistribuciones Discretas Clave →