Cálculo multivariable desde primeros principios
Una estructura de datos organiza todo lo aprendido en las dos últimas lecciones: la gráfica de cálculo. Cada operación aritmética en un modelo (suma, multiplicación, matmul, activación) se convierte en un nodo en un grafo dirigido. Este grafo es cómo PyTorch, JAX y TensorFlow calculan automáticamente los gradientes.
La ejecución del entrenamiento pasa por el grafo en dos recorridos. La pasada hacia adelante fluye de izquierda a derecha, calculando y almacenando temporalmente el valor de cada nodo. La pasada hacia atrás fluye de derecha a izquierda, usando la regla de la cadena para enviar el gradiente desde la pérdida hasta cada entrada, nodo por nodo.
La idea que hace que esto escala: cada nodo solo necesita saber su propio derivada local. Para enviar el gradiente hacia atrás a través de un nodo, multiplica el gradiente entrante (desde arriba) por la matriz Jacobiana del nodo (cómo su salida depende de sus entradas). Ningún nodo necesita nunca la imagen global; reglas locales encadenadas juntas producen exactamente el gradiente total.