Regla de la Cadena: Composición Escalar

Cálculo multivariable desde primeros principios

Desglosa la retropropagación hasta su matemática y encontrarás este módulo. La regla de la cadena multivariada te dice cómo diferenciar una composición de funciones, que es lo único que realmente hace un motor autograd. Empezamos con la versión escalar: cómo un cambio en una entrada se propaga a través de variables intermedias hasta la salida.

Supongamos que z depende de intermedios y₁, y₂, …, los cuales a su vez dependen de entradas x. Para encontrar cómo z cambia con respecto a una entrada, sumar sobre cada camino desde esa entrada hasta la salida, multiplicando las derivadas en cada camino:

Cada término (∂z/∂yₖ)(∂yₖ/∂xᵢ) es la contribución de un camino; sumas todos los caminos. Si hay solo un camino, se reduce a la conocida regla de la cadena 1-D.

Dónde aparece en el MLEsta suma sobre los caminos es exactamente la pasada hacia atrás en un nodo de una red. Cada intermedio yₖ es la activación de una neurona; ∂z/∂yₖ es el gradiente que fluye hacia ella; ∂yₖ/∂xᵢ es la derivada local de esa operación. Multiplica y suma, y has propagado el gradiente un paso atrás. Repite ese paso a través del todo gráfico y habrás entrenado el modelo.
▶ Regla de la Cadena: Composición Escalar
← Geometría del HessianRegla de la Cadena: Forma Matricial →