제1원리에서 출발하는 다변수 미적분
역전파에서 수학만 추려 내면 결국 이 내용이 남습니다. 다변수 연쇄 법칙은 함수의 합성을 미분하는 방법을 알려 주며, 사실 autograd 엔진이 실제로 하는 일은 이것 하나뿐입니다. 먼저 스칼라 버전부터 살펴보겠습니다. 한 입력의 변화가 중간 변수들을 거쳐 출력으로 어떻게 퍼져 나가는지를 다룹니다.
z가 중간 변수 y₁, y₂, …에 의존하고, 이 중간 변수들이 다시 입력 x에 의존한다고 합시다. z가 어떤 입력에 따라 어떻게 변하는지 알아내려면, 그 입력에서 출력까지 이어지는 모든 경로에 대해 합산하되 각 경로를 따라 도함수를 곱합니다.
각 항 (∂z/∂yₖ)(∂yₖ/∂xᵢ)은 한 경로의 기여이며, 모든 경로의 기여를 더합니다. 경로가 하나뿐이면 익숙한 1차원 연쇄 법칙으로 환원됩니다.