Gráficas de Cálculo

Cálculo multivariable desde primeros principios

Una estructura de datos organiza todo lo aprendido en las dos últimas lecciones: la gráfica de cálculo. Cada operación aritmética en un modelo (suma, multiplicación, matmul, activación) se convierte en un nodo en un grafo dirigido. Este grafo es cómo PyTorch, JAX y TensorFlow calculan automáticamente los gradientes.

La ejecución del entrenamiento pasa por el grafo en dos recorridos. La pasada hacia adelante fluye de izquierda a derecha, calculando y almacenando temporalmente el valor de cada nodo. La pasada hacia atrás fluye de derecha a izquierda, usando la regla de la cadena para enviar el gradiente desde la pérdida hasta cada entrada, nodo por nodo.

La idea que hace que esto escala: cada nodo solo necesita saber su propio derivada local. Para enviar el gradiente hacia atrás a través de un nodo, multiplica el gradiente entrante (desde arriba) por la matriz Jacobiana del nodo (cómo su salida depende de sus entradas). Ningún nodo necesita nunca la imagen global; reglas locales encadenadas juntas producen exactamente el gradiente total.

Dónde aparece en el MLUna gráfica de cálculo es autograd. Cuando escribes un modelo en PyTorch, cada operación registra silenciosamente un nodo; llamar a loss.backward() recorre el grafo en reversa, multiplica las Jacobianas locales mediante la regla de la cadena y deposita ∂loss/∂w en cada parámetro. Nunca escribes una derivada a mano, y esa comodidad, derivadas calculadas exactamente y gratis, es gran parte del por…
▶ Gráficas de Cálculo
← Regla de la Cadena: Forma MatricialPuntos Críticos en Rⁿ →