Centralne Twierdzenie Graniczne

Matematyka niepewności

Prawo wielkich liczb mówi, że średnia z próby zbiega do μ. Ale w jaki sposób tam dociera i jak wygląda to pozostałe "chybotanie" (błąd wokół średniej)? Centralne twierdzenie graniczne (CTG) daje uderzającą odpowiedź: błąd ten ma zawsze rozkład Gaussa, bez względu na to, od jakiego rozkładu wyjściowego zacząłeś.

Uśrednij wystarczająco dużo niezależnych próbek, a zestandaryzowana średnia zacznie naśladować standardowy rozkład normalny, nawet jeśli oryginalne dane to rzuty monetą, rzuty kostką, czy jakikolwiek asymetryczny rozkład. To dlatego krzywa dzwonowa (rozkład normalny) pojawia się tak często w przyrodzie: wszystko, co jest sumą wielu małych, niezależnych czynników, kończy jako rozkład Gaussa.

Na wykresie uśredniono n rzutów symetryczną kostką i stworzono z tych wyników histogram po wielu próbach. Dla n = 1 histogram jest płaski (rozkład jednorodny); po zwiększeniu n, znikąd wyłania się dzwon, a CTG buduje rozkład Gaussa z nienormalnego źródła.

Gdzie to występuje w MLCTG doskonale wyjaśnia strukturę szumu w optymalizacji stochastycznej. Gradient wyliczony z mini-batcha jest średnią z elementów partii danych, więc zgodnie z CTG, jego błąd (względem prawdziwego gradientu całej populacji) jest w przybliżeniu gaussowski z odchyleniem wynoszącym σ/√(batch size). To dlatego szum podczas treningu (gradient noise) wygląda jak rozkład normalny, dlaczego większe batche…
▶ Centralne Twierdzenie Graniczne
← Prawo wielkich liczbMiary środka →