그래디언트

제1원리에서 출발하는 다변수 미적분

f의 모든 편도함수를 하나의 벡터로 모으면 그래디언트 ∇f(«grad f»)가 됩니다. 딥러닝의 모든 최적화기가 바로 이 하나의 대상 위에서 돌아가므로, 그래디언트가 이 코스의 중심에 자리할 자격은 충분합니다.

그래디언트는 단순한 기록이 아닙니다. 입력 공간 안의 벡터로서 방향과 길이를 가지며, 둘 다 의미를 가집니다. 방향은 가장 가파른 오르막입니다. ∇f를 향해 서면 함수가 가능한 한 가장 빠르게 올라갑니다. 그리고 길이 ‖∇f‖는 바로 그 오르막이 얼마나 가파른지를 나타냅니다.

안개가 자욱한 풀밭 언덕에 서 있는 자신의 모습을 상상해 보세요. 그래디언트 ∇f는 경사의 가장 가파른 부분을 똑바로 가리키는 화살표이며, 그 길이는 그 오르막이 얼마나 험난한지를 알려줍니다. 공을 내려놓고 손을 놓아보세요: 공은 정확히 반대 방향으로 굴러가며 가장 빠르게 내려가는 길을 택합니다.

머신러닝에서의 위치손실 곡면 위에 서서, 가능한 한 가장 빠르게 내리막으로 한 걸음 내딛고 싶다고 합시다. 그래디언트 ∇L는 가장 가파른 증가 방향을 가리키므로, 이를 빼 줍니다: w ← w − η∇L. 이것이 SGD, Adam을 비롯한 모든 최적화기의 바탕이 되는 갱신식입니다. 역전파가 존재하는 이유는 단 하나, 바로 이 벡터를 효율적으로 계산하기 위해서입니다.

▶ 그래디언트

← 고계 편도함수 방향 도함수 →