Analiza wielowymiarowa od pierwszych zasad
Zbierając wszystkie pochodne cząstkowe funkcji f w jeden wektor, otrzymujesz gradient, oznaczany jako ∇f („grad f”). Każdy optymalizator w uczeniu głębokim operuje na tym właśnie obiekcie, dlatego zajmuje on centralne miejsce w tym kursie.
Gradient nie jest tylko listą liczb. Będąc wektorem w przestrzeni wejściowej, posiada kierunek i długość, a obie te cechy mają istotne znaczenie. Wyznacza on kierunek najszybszego wzrostu: podążaj wzdłuż wektora ∇f, a funkcja będzie rosła najszybciej jak to możliwe. Jego długość, ‖∇f‖, to z kolei miara stromości tego wzrostu.
Wyobraź sobie, że stoisz na trawiastym wzgórzu we mgle. Gradient ∇f to strzałka wskazująca prosto w górę najstromszego miejsca zbocza, a jej długość mówi ci, jak wyczerpująca jest to wspinaczka. Połóż piłkę i puść ją: stoczy się dokładnie w przeciwnym kierunku, wybierając najszybszą drogę w dół.