Закон за големите числа — Вероятност

Хвърлете правилна монета десет пъти и може да получите 7 езита. Хвърлете я десет хиляди пъти и делът на езитата ще се доближи удивително близо до 0,5. Това е законът за големите числа (Law of Large Numbers - LLN): когато събирате повече данни, средната стойност на извадката (sample mean) клони към истинското математическо очакване.

Случайността не изчезва и отделните резултати остават непредсказуеми, но средната стойност от голям брой от тях се стабилизира. Слабият закон гласи, че тази сходимост е „по вероятност“: за всеки зададен толеранс шансът средната стойност да се отклони с повече от този толеранс клони към 0 с нарастването на броя проби n.

Натиснете Run на фигурата, за да симулирате хвърляне на монети една по една и наблюдавайте как текущата средна стойност първоначално се колебае, а след това се доближава до пунктираната линия на истинското очакване. Повече проби означават по-плътна сходимост.

Къде се използва това в MLЗаконът за големите числа е онова, което прави обучението с мини-партиди (mini-batch training) математически обосновано. Истинският градиент е математическо очакване върху цялото разпределение на данните; градиентът на мини-партидата е негова извадкова средна. Според LLN тази средна стойност клони към истинския градиент и става все по-точна с увеличаване размера на партидата. Всяка оценка на…