연쇄 법칙: 행렬 형태

제1원리에서 출발하는 다변수 미적분

경로 합 공식은 사실 항별로 풀어 쓴 행렬 곱셈에 지나지 않습니다. 함수가 벡터값을 가지면 연쇄 법칙은 야코비안의 깔끔한 곱으로 정리되며, 실제 autograd 시스템을 구동하는 것이 바로 이 형태입니다.

합성 f ∘ g에 대해, 전체의 야코비안은 (내부 출력에서 평가한) 외부 사상의 야코비안에 내부 사상의 야코비안을 곱한 것입니다.

이를 이해하는 열쇠는 형태 점검입니다. g: Rⁿ → Rᵏ이고 f: Rᵏ → Rᵐ이면 J_g는 k×n, J_f는 m×k이고, 그 곱은 m×n이 되어 전체 사상 Rⁿ → Rᵐ이 요구하는 형태와 정확히 일치합니다. 보통의 행렬 곱과 마찬가지로 내부 차원 k가 상쇄됩니다.

머신러닝에서의 위치이 곱이 바로 딥 네트워크가 그래디언트 소실과 폭발을 겪는 이유입니다. 특이값이 1보다 작은 야코비안을 여러 번 곱하면 그 곱은 0에 가깝게 수축하고, 1보다 크면 폭발합니다. 잔차 연결, 신중한 초기화, 정규화는 모두 이 야코비안 곱을 건강한 크기 근처로 유지해, 그래디언트가 여러 층을 거쳐 되돌아오는 동안 살아남도록 하기 위해 존재합니다.
▶ 연쇄 법칙: 행렬 형태
← 연쇄 법칙: 스칼라 합성계산 그래프 →