큰 수의 법칙 — 확률 · Mathematics for Machine Learning

공정한 동전을 열 번 던지면 앞면이 일곱 번 나올 수도 있습니다. 하지만 만 번을 던지면 앞면의 비율이 놀라울 만큼 0.5에 바짝 붙습니다. 이것이 바로 큰 수의 법칙입니다. 데이터를 더 많이 모을수록 표본 평균이 진짜 기댓값으로 수렴합니다.

무작위성이 사라지는 것은 아닙니다. 개별 결과는 여전히 예측할 수 없지만, 많은 결과의 평균은 안정됩니다. 약한 법칙은 이 수렴이 «확률적으로» 일어난다고 말합니다. 어떤 허용 오차를 잡든, 평균이 그보다 더 벗어날 확률이 n이 커질수록 0으로 줄어든다는 뜻입니다.

그림에서 Run을 눌러 동전을 하나씩 던져 보세요. 실행 평균이 처음에는 거칠게 요동치다가, 점선으로 표시된 진짜 평균으로 차츰 수렴해 가는 모습을 볼 수 있습니다. 표본이 많을수록 수렴이 더 단단해집니다.

머신러닝에서의 위치큰 수의 법칙은 미니배치 훈련이 타당한 근거를 갖게 해 줍니다. 진짜 그래디언트는 전체 데이터 분포에 대한 기댓값이고, 미니배치 그래디언트는 그것의 표본 평균입니다. 큰 수의 법칙에 의해 이 평균이 진짜 그래디언트를 근사하며, 배치가 클수록 더 정확해집니다. ML의 모든 몬테카를로 추정(기대 보상, ELBO 항, 경험적 위험)은 «표본에 대한 평균 ≈ 진짜 기댓값»을 정당화하기 위해 이 법칙에 의존합니다.