연쇄 법칙 — 미적분학 I · Mathematics for Machine Learning

연쇄 법칙은 역전파가 그 위에 세워진 법칙입니다. 이 법칙은 합성, 즉 f(g(x))처럼 함수 안에 또 다른 함수가 들어 있는 형태를 어떻게 미분하는지 알려 줍니다.

«바깥 함수 안에 안쪽 함수»를 미분하려면, 먼저 바깥 함수의 도함수를 구하고(안쪽은 그대로 둔 채), 거기에 안쪽 함수의 도함수를 곱합니다. 변화율들이 사슬을 따라 곱해지는 것입니다.

이를 파이프라인으로 생각해 보세요. x → g → f입니다. x를 살짝 움직이면 그 변화가 g′만큼 증폭되고, 그 변화가 다시 f′만큼 증폭됩니다. 전체 증폭률은 이 둘의 곱입니다. 그림은 도함수들이 합성을 따라 곱해지는 과정을 보여 줍니다.

머신러닝에서의 위치역전파는 연쇄 법칙을 신경망을 거슬러 거꾸로 적용한 것입니다. 깊은 신경망은 층이 거듭 쌓인 하나의 거대한 합성이며, 앞쪽 가중치에 대한 손실의 그래디언트는 경로를 따라 곱해지는 국소 도함수들의 곱(층마다 하나씩)입니다. 바로 이 때문에 «기울기 소실»이 생깁니다. 작은 도함수를 여럿 곱하면 곱이 0에 가깝게 줄어들기 때문입니다. 연쇄 법칙은 역전파와 비슷한 것이 아니라, 그 자체가 곧 역전파입니다.