Calcolo multivariabile dai primi principi
Spoglia la backpropagation fino alla sua matematica e trovi questo modulo. La regola della catena multivariabile ti dice come derivare una composizione di funzioni, che è l'unica cosa che un motore autograd faccia davvero. Iniziamo con la versione scalare: come un cambiamento in un input si propaga attraverso variabili intermedie fino all'output.
Supponi che z dipenda da intermedie y₁, y₂, …, che a loro volta dipendono dagli input x. Per trovare come z cambia con un input, somma su ogni percorso da quell'input all'output, moltiplicando le derivate lungo ciascun percorso:
Ciascun termine (∂z/∂yₖ)(∂yₖ/∂xᵢ) è il contributo di una via; sommi tutte le vie. Se c'è un solo percorso, collassa nella familiare regola della catena 1-D.