곡선의 가장 낮은 지점을 찾고 싶은데, 발밑의 땅만 볼 수 있다고 해 봅시다. 기울기만 느낄 수 있을 뿐 그 이상은 알 수 없습니다. 그러면 어떻게 해야 할까요? 간단합니다. 내리막 방향으로 한 걸음 내딛고, 다시 기울기를 느끼고, 또 한 걸음 내딛습니다. 이것을 반복합니다. 이것이 바로 그래디언트 디센트이며, 사실상 모든 현대 AI 모델을 학습시키는 알고리즘입니다.
한 치 앞도 보이지 않는 짙은 안개 속에서 내리막길을 걷고 있다고 상상해 보세요. 계곡의 바닥을 볼 수는 없지만, 땅이 어느 쪽으로 기울어져 있는지 발로 느낄 수 있고, 그 방향으로 발걸음을 내디딜 수 있습니다. 느끼고, 내딛고, 느끼고, 내딛습니다. 경사 하강법은 정확히 이와 같은 가장 낮은 지점을 향한 맹목적이고 인내심 있는 발걸음입니다.
이를 매 단계마다 위치를 갱신하는 규칙으로 쓰면 다음과 같습니다.
머신러닝에서의 위치이 한 줄이 딥러닝의 모든 최적화기의 심장입니다. 가중치 갱신도 본질적으로 동일합니다. w ← w − η∇L이며, 여기서 ∇L는 다음 코스에서 다룰 다차원 도함수(그래디언트)입니다. SGD, Adam, RMSProp 등은 모두 이 뼈대를 개선한 것입니다. 더 똑똑한 걸음 크기, 모멘텀, 파라미터별 학습률 등을 더한 것이지만, 그 뼈대는 정확히 위의 규칙입니다. 비볼록성 때문에 딥 네트워크에는 유일한 «그» 최소가 없고, 서로 다른 무작위 초기화에서 출발한 두 학습이 다른 곳에 도달하며, 학습률이 가장 중요한 조절 손잡이가 됩니다.