Pochodna w kierunku

Analiza wielowymiarowa od pierwszych zasad

Pochodne cząstkowe podają nachylenie tylko wzdłuż osi współrzędnych, ale poruszać możesz się w dowolnym kierunku. Pochodna kierunkowa D_u f odpowiada na pytanie: jeśli zrobię krok wzdłuż wektora jednostkowego u, jak szybko zmieni się funkcja f? Okazuje się, że odpowiedź to pojedynczy iloczyn skalarny z gradientem.

Wyobraź sobie pieszą wędrówkę przez to samo wzgórze, ale zamiast stawać przodem do stoku, wybierasz kierunek kompasu, powiedzmy na północny wschód, i idziesz w tym kierunku. Pochodna kierunkowa D_u f to nachylenie, które faktycznie czujesz pod butami wzdłuż tego kursu. Skieruj się w najstromszym kierunku, a poczujesz pełne podejście; skręć w bok wzdłuż zbocza, a grunt wyda ci się płaski.

Z uwagi na to, że D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (jako że u jest wektorem jednostkowym), tempo zmian osiąga swoją maksymalną wartość dokładnie wtedy, gdy cos θ = 1, czyli w sytuacji, gdy u wskazuje w tym samym kierunku co ∇f. Obróć strzałkę kierunku poniżej i zobacz, jak wartość nachylenia staje się największa, gdy wektor pokrywa się z gradientem, a spada do zera, gdy jest do niego prostopadły.

Gdzie to występuje w MLJest to w zasadzie twierdzenie uzasadniające działanie algorytmu spadku gradientowego. Ze wszystkich kierunków, w jakich można wykonać krok, to −∇L minimalizuje stratę najszybciej. Zatem jeśli zastanawiasz się, dlaczego trenowanie modeli podąża śladem gradientu, a nie jakimś innym, tu kryje się odpowiedź: z perspektywy lokalnej to właśnie gradient jest najlepszym wyborem, przez co w ← w − η∇L…

▶ Pochodna w kierunku

← Gradient jako kierunek najszybszego wzrostu Aproksymacja liniowa →