제1원리에서 출발하는 다변수 미적분
하나의 자료 구조가 지난 두 강의의 모든 내용을 한데 정리해 줍니다. 바로 계산 그래프입니다. 모델 안의 모든 산술 연산(덧셈, 곱셈, 행렬 곱, 활성화)이 방향 그래프의 노드가 됩니다. PyTorch, JAX, TensorFlow가 그래디언트를 자동으로 계산하는 방식이 바로 이 그래프입니다.
훈련은 이 그래프를 두 번 훑으며 실행됩니다. 순방향 패스는 왼쪽에서 오른쪽으로 흐르며 각 노드의 값을 계산해 캐시에 저장합니다. 역방향 패스는 오른쪽에서 왼쪽으로 흐르며, 연쇄 법칙을 이용해 손실에서 모든 입력으로 그래디언트를 한 노드씩 밀어 냅니다.
이 방식이 규모 있게 작동하는 핵심 아이디어는, 각 노드가 자신의 국소 도함수만 알면 된다는 점입니다. 한 노드를 거꾸로 통과시켜 그래디언트를 보내려면, 위에서 들어온 그래디언트에 그 노드의 국소 야코비안(출력이 입력에 어떻게 의존하는지)을 곱하면 됩니다. 어떤 노드도 전역적인 그림을 알 필요가 없습니다. 국소 규칙들이 사슬처럼 이어지면 정확한 전체 그래디언트가 만들어집니다.