Gradient jako kierunek najszybszego wzrostu

Analiza wielowymiarowa od pierwszych zasad

Zbierając wszystkie pochodne cząstkowe funkcji f w jeden wektor, otrzymujesz gradient, oznaczany jako ∇f („grad f”). Każdy optymalizator w uczeniu głębokim operuje na tym właśnie obiekcie, dlatego zajmuje on centralne miejsce w tym kursie.

Gradient nie jest tylko listą liczb. Będąc wektorem w przestrzeni wejściowej, posiada kierunek i długość, a obie te cechy mają istotne znaczenie. Wyznacza on kierunek najszybszego wzrostu: podążaj wzdłuż wektora ∇f, a funkcja będzie rosła najszybciej jak to możliwe. Jego długość, ‖∇f‖, to z kolei miara stromości tego wzrostu.

Wyobraź sobie, że stoisz na trawiastym wzgórzu we mgle. Gradient ∇f to strzałka wskazująca prosto w górę najstromszego miejsca zbocza, a jej długość mówi ci, jak wyczerpująca jest to wspinaczka. Połóż piłkę i puść ją: stoczy się dokładnie w przeciwnym kierunku, wybierając najszybszą drogę w dół.

Gdzie to występuje w MLStojąc na powierzchni straty, chcesz schodzić w dół najszybciej jak to możliwe. Gradient ∇L wskazuje w kierunku najszybszego wzrostu, dlatego go odejmujemy: w ← w − η∇L. Jest to krok aktualizujący, stanowiący fundament SGD, Adama i każdego innego optymalizatora. Cały algorytm propagacji wstecznej (backpropagation) służy w zasadzie jednemu celowi: jak najefektywniej obliczyć ten wektor.
▶ Gradient jako kierunek najszybszego wzrostu
← Pochodne cząstkowe wyższych rzędówPochodna w kierunku →