분산 — 확률 · Mathematics for Machine Learning

평균이 같은 두 베팅이 완전히 다르게 느껴질 수 있습니다. «+1 또는 −1»과 «+1000 또는 −1000»은 둘 다 평균이 0이지만, 한쪽은 훨씬 거칩니다. 분산은 바로 이 흩어진 정도를 측정합니다. X가 평균 μ = E[X]으로부터 떨어진 거리의 제곱을 평균한 값이지요:

제곱을 하면 편차가 양수로 유지되어 서로 상쇄되지 않고, 큰 편차에는 더 무거운 벌점이 매겨집니다. 다시 원래 단위로 돌아오려면 제곱근을 취하면 되는데, 이것이 표준편차 σ = √Var(X)입니다.

실제 계산에서는 «제곱의 평균에서 평균의 제곱을 뺀다»는 다음 공식이 더 빠릅니다:

머신러닝에서의 위치그래디언트 추정량의 분산은 각 훈련 step이 얼마나 시끄러운지를 결정합니다. 미니배치 그래디언트는 예시별 그래디언트의 평균인데, 비에네메 항등식에 따라 독립인 추정량 n개를 평균하면 분산이 n으로 나뉘고, 표준편차 기준으로는 잡음이 1/√n로 줄어듭니다. 배치를 키우면 더 부드럽고 분산이 작은 step을 얻는 것도, 분산 감소 기법이 훈련을 빠르게 하는 것도 모두 이 때문입니다.