Deux paris peuvent partager la même moyenne et sembler complètement différents : « +1 ou −1 » contre « +1000 ou −1000 » ont tous deux une moyenne de 0, mais l'un est sauvage. La variance mesure cet étalement, la distance quadratique moyenne de X à sa moyenne μ = E[X] :
Élever au carré garde les écarts positifs (pour qu'ils ne s'annulent pas) et punit les grandes excursions plus fort. Pour revenir aux unités d'origine, prenez la racine carrée : l'écart-type σ = √Var(X).
En pratique la formule de raccourci est plus rapide, « la moyenne du carré moins le carré de la moyenne » :
Où cela apparaît en MLLa variance d'un estimateur de gradient décide à quel point chaque pas d'entraînement est bruité. Un gradient de mini-batch est une moyenne de gradients par exemple ; par Bienaymé, moyenner n estimations indépendantes divise la variance par n, donc le bruit baisse comme 1/√n en écart-type. C'est toute la raison pour laquelle des batches plus grands donnent des pas plus lisses et à plus faible…