Règle de dérivation en chaîne : forme matricielle

Calcul multivarié depuis les premiers principes

La formule de la somme sur les chemins est en réalité une multiplication matricielle écrite terme par terme. Lorsque les fonctions sont à valeurs vectorielles, la règle de dérivation en chaîne se réduit à un produit net de jacobiennes, et c'est cette forme qui alimente les véritables systèmes de différentiation automatique.

Pour une composition f ∘ g, la jacobienne du tout est la jacobienne de l'application extérieure (évaluée à la sortie intérieure) fois la jacobienne de l'application intérieure :

La vérification des formes est ce qui fait que tout s'emboîte. Si g: Rⁿ → Rᵏ et f: Rᵏ → Rᵐ, alors J_g est k×n, J_f est m×k, et leur produit est m×n, exactement la forme qu'exige l'application globale Rⁿ → Rᵐ. La dimension intérieure k se simplifie, tout comme dans une multiplication matricielle ordinaire.

Où cela apparaît en MLCe produit est la raison pour laquelle les réseaux profonds souffrent de gradients qui s'évanouissent ou explosent. Multipliez de nombreuses jacobiennes dont les valeurs singulières sont sous 1 et le produit rétrécit vers rien ; laissez-les au-dessus de 1 et il explose. Les connexions résiduelles, l'initialisation soignée et la normalisation existent toutes pour maintenir ce produit de…
▶ Règle de dérivation en chaîne : forme matricielle
← Règle de dérivation en chaîne : composition scalaireGraphes de calcul →