Дисперсия

Математиката на несигурността

Два залога могат да имат едно и също математическо очакване, но да се усещат напълно различно: „+1 или −1“ срещу „+1000 или −1000“ – и двете имат средна стойност 0, но вторият залог е много по-рисков. Дисперсията (Variance) измерва това разсейване: средното квадратично отклонение на X от нейната средна стойност μ = E[X]:

Повдигането на квадрат прави отклоненията винаги положителни (за да не се унищожават взаимно) и наказва по-строго големите отклонения. За да се върнете към първоначалните мерни единици, извличате квадратен корен, което дава стандартното отклонение σ = √Var(X).

На практика по-кратката формула се пресмята по-бързо: „математическото очакване на квадратите минус квадрата на математическото очакване“:

Къде се използва това в MLДисперсията на оценката на градиента определя колко „шумна“ е всяка стъпка при обучението. Градиентът на мини-партидата (mini-batch) е средноаритметично от градиентите на отделните примери; според тъждеството на Bienaymé, осредняването на n независими оценки разделя дисперсията на n, така че шумът намалява пропорционално на 1/√n в изражение на стандартното отклонение. Именно поради тази причина…
▶ Дисперсия
← Математическо очакванеОсновни дискретни разпределения →