제1원리에서 출발하는 다변수 미적분
f의 모든 편도함수를 하나의 벡터로 모으면 그래디언트 ∇f(«grad f»)가 됩니다. 딥러닝의 모든 최적화기가 바로 이 하나의 대상 위에서 돌아가므로, 그래디언트가 이 코스의 중심에 자리할 자격은 충분합니다.
그래디언트는 단순한 기록이 아닙니다. 입력 공간 안의 벡터로서 방향과 길이를 가지며, 둘 다 의미를 가집니다. 방향은 가장 가파른 오르막입니다. ∇f를 향해 서면 함수가 가능한 한 가장 빠르게 올라갑니다. 그리고 길이 ‖∇f‖는 바로 그 오르막이 얼마나 가파른지를 나타냅니다.
안개가 자욱한 풀밭 언덕에 서 있는 자신의 모습을 상상해 보세요. 그래디언트 ∇f는 경사의 가장 가파른 부분을 똑바로 가리키는 화살표이며, 그 길이는 그 오르막이 얼마나 험난한지를 알려줍니다. 공을 내려놓고 손을 놓아보세요: 공은 정확히 반대 방향으로 굴러가며 가장 빠르게 내려가는 길을 택합니다.