Центральная предельная теорема — Вероятность

Закон больших чисел говорит, что выборочное среднее сходится к μ. Но как оно туда приходит и каков остаточный разброс? Центральная предельная теорема даёт поразительный ответ: разброс всегда гауссов, независимо от исходного распределения.

Усредните достаточно независимых сэмплов, и стандартизованное среднее следует стандартному нормальному, даже если оригиналы были бросками монеты, кубика или какое-то перекошенное распределение. Вот почему колокол встречается так часто: всё, что сумма многих малых независимых эффектов, оказывается гауссовым.

Фигура усредняет n бросков плоского кубика и гистограммирует результат по многим испытаниям. При n = 1 гистограмма плоская (равномерная); поднимите n — и колокол возникает из ниоткуда, ЦПТ строит Гаусса из не-гауссова источника.

Где это встречается в MLЦПТ объясняет структуру шума стохастической оптимизации. Градиент мини-батча — среднее по примерам батча, так что по ЦПТ его ошибка вокруг истинного градиента приблизительно гауссова с разбросом σ/√(batch size). Вот почему шум градиента выглядит нормальным, почему большие батчи дают пропорционально более гладкие (но лишь √n-лучшие) шаги, и почему доверительные интервалы для точностей бенчмарков…