Regola della Catena: Composizione Scalare

Calcolo multivariabile dai primi principi

Spoglia la backpropagation fino alla sua matematica e trovi questo modulo. La regola della catena multivariabile ti dice come derivare una composizione di funzioni, che è l'unica cosa che un motore autograd faccia davvero. Iniziamo con la versione scalare: come un cambiamento in un input si propaga attraverso variabili intermedie fino all'output.

Supponi che z dipenda da intermedie y₁, y₂, …, che a loro volta dipendono dagli input x. Per trovare come z cambia con un input, somma su ogni percorso da quell'input all'output, moltiplicando le derivate lungo ciascun percorso:

Ciascun termine (∂z/∂yₖ)(∂yₖ/∂xᵢ) è il contributo di una via; sommi tutte le vie. Se c'è un solo percorso, collassa nella familiare regola della catena 1-D.

Dove si trova nel MLQuesta somma-su-percorsi è esattamente il passo all'indietro attraverso un nodo di una rete. Ciascuna intermedia yₖ è l'attivazione di un neurone; ∂z/∂yₖ è il gradiente che rifluisce in esso; ∂yₖ/∂xᵢ è la derivata locale di quell'operazione. Moltiplica e somma, e hai propagato il gradiente di un passo indietro. Ripeti quel passo attraverso tutto il grafo e hai addestrato il modello.
▶ Regola della Catena: Composizione Scalare
← Geometria della HessianaRegola della Catena: Forma Matriciale →