Wariancja

Matematyka niepewności

Dwa zakłady mogą mieć identyczną średnią, ale w praktyce oznaczać coś zupełnie innego: scenariusze „+1 lub −1" oraz „+1000 lub −1000" oba uśredniają się do zera, lecz w tym drugim ponosimy znacznie wyższe ryzyko. Wariancja precyzyjnie mierzy owo rozproszenie, jako oczekiwany kwadrat odległości zmiennej X od jej średniej μ = E[X]:

Dzięki podnoszeniu do kwadratu odchylenia są wyłącznie dodatnie (więc się nie zerują), a duże fluktuacje są karane znacznie mocniej. Aby powrócić do pierwotnych jednostek, po prostu pierwiastkujemy wariancję – wynikiem jest odchylenie standardowe σ = √Var(X).

W praktyce o wiele szybszy okazuje się jednak wzór skrócony: „wartość oczekiwana z kwadratu minus kwadrat z wartości oczekiwanej":

Gdzie to występuje w MLW trakcie treningu modeli wariancja estymatora gradientu determinuje to, jak bardzo zaszumiony jest pojedynczy krok aktualizacji. Gradient wyliczony na podstawie mini-batcha jest średnią z poszczególnych elementów; w oparciu o tożsamość Bienaymé wiemy, że uśrednianie n niezależnych wyników pomniejsza wariancję, dzieląc ją przez n, dzięki czemu szum maleje z odchyleniem standardowym…
▶ Wariancja
← Wartość oczekiwanaKluczowe rozkłady dyskretne →