Wprowadzenie do algorytmu spadku wzdłuż gradientu

Analiza jednowymiarowa od pierwszych zasad

Wyobraź sobie, że chcesz znaleźć najniższy punkt na krzywej, ale widzisz tylko teren bezpośrednio pod stopami — czujesz tylko nachylenie, nic więcej. Co robisz? To proste: robisz krok w dół, ponownie badasz nachylenie i robisz kolejny krok. I tak w kółko. Na tym właśnie polega metoda spadku wzdłuż gradientu (gradient descent) — algorytm trenujący niemal każdy współczesny model sztucznej inteligencji.

Wyobraź sobie schodzenie z góry we mgle tak gęstej, że nie widzisz na krok do przodu. Nie potrafisz dostrzec dna doliny, ale nadal możesz wyczuć stopą, w którą stronę opada ziemia, i zrobić krok w tym kierunku. Poczuj, zrób krok, poczuj, zrób krok. Spadek gradientowy to dokładnie to ślepe, cierpliwe powłóczenie nogami w stronę najniższego terenu.

Można to zapisać jako regułę aktualizującą twoje położenie w każdym kroku:

Gdzie to występuje w MLTa jedna linijka to serce każdego optymalizatora w uczeniu głębokim. Aktualizacja wag przebiega w identycznym duchu: w ← w − η∇L, gdzie ∇L to po prostu wielowymiarowa pochodna (gradient) z kolejnego kursu. SGD, Adam, RMSProp i cała reszta to ulepszenia tego samego szkieletu — sprytniejsze dobieranie kroków, pęd (momentum), indywidualne współczynniki uczenia dla każdego parametru — ale fundamentem…
▶ Wprowadzenie do algorytmu spadku wzdłuż gradientu
← WypukłośćSystematyczny Protokół Szkicowania →