연쇄 법칙: 스칼라 합성

제1원리에서 출발하는 다변수 미적분

역전파에서 수학만 추려 내면 결국 이 내용이 남습니다. 다변수 연쇄 법칙은 함수의 합성을 미분하는 방법을 알려 주며, 사실 autograd 엔진이 실제로 하는 일은 이것 하나뿐입니다. 먼저 스칼라 버전부터 살펴보겠습니다. 한 입력의 변화가 중간 변수들을 거쳐 출력으로 어떻게 퍼져 나가는지를 다룹니다.

z가 중간 변수 y₁, y₂, …에 의존하고, 이 중간 변수들이 다시 입력 x에 의존한다고 합시다. z가 어떤 입력에 따라 어떻게 변하는지 알아내려면, 그 입력에서 출력까지 이어지는 모든 경로에 대해 합산하되 각 경로를 따라 도함수를 곱합니다.

각 항 (∂z/∂yₖ)(∂yₖ/∂xᵢ)은 한 경로의 기여이며, 모든 경로의 기여를 더합니다. 경로가 하나뿐이면 익숙한 1차원 연쇄 법칙으로 환원됩니다.

머신러닝에서의 위치이 경로 합산이 바로 네트워크의 한 노드를 지나는 역방향 패스입니다. 각 중간 변수 yₖ는 뉴런의 활성화값이고, ∂z/∂yₖ는 그 노드로 흘러드는 그래디언트이며, ∂yₖ/∂xᵢ는 그 연산의 국소 도함수입니다. 이 둘을 곱해 더하면 그래디언트가 한 단계 뒤로 전파됩니다. 이 과정을 전체 그래프에 걸쳐 반복하면 모델이 훈련됩니다.

▶ 연쇄 법칙: 스칼라 합성

← 헤세 기하학 연쇄 법칙: 행렬 형태 →