Regola della Catena: Forma Matriciale

Calcolo multivariabile dai primi principi

La formula somma-su-percorsi è davvero moltiplicazione matriciale scritta termine per termine. Quando le funzioni sono a valori vettoriali, la regola della catena collassa in un prodotto pulito di Jacobiane, e questa è la forma che alimenta i veri sistemi autograd.

Per una composizione f ∘ g, la Jacobiana del tutto è la Jacobiana della mappa esterna (valutata all'output dell'interna) per la Jacobiana della mappa interna:

Il controllo della forma è ciò che la fa cliccare. Se g: Rⁿ → Rᵏ e f: Rᵏ → Rᵐ, allora J_g è k×n, J_f è m×k, e il loro prodotto è m×n, esattamente la forma che la mappa complessiva Rⁿ → Rᵐ richiede. La dimensione interna k si semplifica, come nella moltiplicazione matriciale ordinaria.

Dove si trova nel MLQuesto prodotto è il motivo per cui le reti profonde soffrono di gradienti che svaniscono ed esplodono. Moltiplica molte Jacobiane i cui valori singolari stanno sotto 1 e il prodotto si contrae verso lo zero; lasciali sopra 1 ed esplode. Le connessioni residue, un'inizializzazione accurata e la normalizzazione esistono proprio per mantenere questo prodotto di Jacobiane su una scala sana, così che…
▶ Regola della Catena: Forma Matriciale
← Regola della Catena: Composizione ScalareGrafi di Calcolo →