Многомерный анализ с первых принципов
Одна структура данных организует всё из последних двух уроков: граф вычислений. Каждая арифметическая операция в модели (сложение, умножение, matmul, активация) становится узлом в ориентированном графе. Этот граф — как PyTorch, JAX и TensorFlow вычисляют градиенты автоматически.
Обучение прогоняет граф в два прохода. Прямой проход течёт слева направо, вычисляя и кэшируя значение каждого узла. Обратный проход течёт справа налево, используя цепное правило для проталкивания градиента от потери к каждому входу, по одному узлу за раз.
Идея, дающая масштабируемость: каждый узел знает лишь свою локальную производную. Чтобы послать градиент назад через узел, умножьте входящий градиент (сверху) на локальный якобиан узла (как выход зависит от входов). Ни один узел не видит глобальной картины; локальные правила, сцепленные вместе, дают точный полный градиент.