계산 그래프 — 미적분학 II · Mathematics for Machine Learning

하나의 자료 구조가 지난 두 강의의 모든 내용을 한데 정리해 줍니다. 바로 계산 그래프입니다. 모델 안의 모든 산술 연산(덧셈, 곱셈, 행렬 곱, 활성화)이 방향 그래프의 노드가 됩니다. PyTorch, JAX, TensorFlow가 그래디언트를 자동으로 계산하는 방식이 바로 이 그래프입니다.

훈련은 이 그래프를 두 번 훑으며 실행됩니다. 순방향 패스는 왼쪽에서 오른쪽으로 흐르며 각 노드의 값을 계산해 캐시에 저장합니다. 역방향 패스는 오른쪽에서 왼쪽으로 흐르며, 연쇄 법칙을 이용해 손실에서 모든 입력으로 그래디언트를 한 노드씩 밀어 냅니다.

이 방식이 규모 있게 작동하는 핵심 아이디어는, 각 노드가 자신의 국소 도함수만 알면 된다는 점입니다. 한 노드를 거꾸로 통과시켜 그래디언트를 보내려면, 위에서 들어온 그래디언트에 그 노드의 국소 야코비안(출력이 입력에 어떻게 의존하는지)을 곱하면 됩니다. 어떤 노드도 전역적인 그림을 알 필요가 없습니다. 국소 규칙들이 사슬처럼 이어지면 정확한 전체 그래디언트가 만들어집니다.

머신러닝에서의 위치계산 그래프가 곧 autograd입니다. PyTorch로 모델을 작성하면 각 연산이 조용히 노드를 기록하고, loss.backward()를 호출하면 그래프를 역순으로 거슬러 가며 연쇄 법칙으로 국소 야코비안을 곱해 모든 매개변수에 ∂loss/∂w를 쌓아 둡니다. 도함수를 직접 손으로 쓸 필요가 전혀 없습니다. 도함수를 정확하게, 그것도 거저 계산해 주는 이 편리함이야말로 현대 딥러닝이 실용적으로 가능한 큰 이유입니다.