Дисперсия — Вероятность · Mathematics for Machine Learning

Две ставки могут иметь одно среднее и совершенно разный характер: «+1 или −1» и «+1000 или −1000» обе в среднем 0, но одна дикая. Дисперсия измеряет разброс — средний квадрат отклонения X от среднего μ = E[X]:

Возведение в квадрат держит отклонения положительными (чтобы не сокращались) и сильнее наказывает большие выбросы. Чтобы вернуться в исходные единицы, извлеките корень: стандартное отклонение σ = √Var(X).

На практике быстрее shortcut: «среднее квадрата минус квадрат среднего»:

Где это встречается в MLДисперсия оценки градиента решает, насколько шумным будет каждый шаг обучения. Градиент мини-батча — среднее градиентов по примерам; по Бьенеме, усреднение n независимых оценок делит дисперсию на n, шум падает как 1/√n в стандартном отклонении. Вот почему большие батчи дают более гладкие шаги с меньшей дисперсией и почему трюки снижения дисперсии ускоряют обучение.