Règle de dérivation en chaîne : composition scalaire

Calcul multivarié depuis les premiers principes

Réduisez la rétropropagation à ses mathématiques et vous trouvez ce module. La règle de dérivation en chaîne multivariée vous dit comment dériver une composition de fonctions, ce qui est la seule chose qu'un moteur de différentiation automatique fait réellement. Nous commençons par la version scalaire : comment un changement d'une entrée se répercute à travers des variables intermédiaires jusqu'à la sortie.

Supposez que z dépende d'intermédiaires y₁, y₂, …, qui à leur tour dépendent d'entrées x. Pour trouver comment z change avec une entrée, sommez sur tous les chemins de cette entrée vers la sortie, en multipliant les dérivées le long de chaque chemin :

Chaque terme (∂z/∂yₖ)(∂yₖ/∂xᵢ) est la contribution d'une route ; vous additionnez toutes les routes. S'il n'y a qu'un seul chemin, cela se réduit à la règle de dérivation en chaîne 1-D familière.

Où cela apparaît en MLCette somme sur les chemins est exactement la passe arrière à travers un nœud d'un réseau. Chaque intermédiaire yₖ est l'activation d'un neurone ; ∂z/∂yₖ est le gradient qui y reflue ; ∂yₖ/∂xᵢ est la dérivée locale de cette opération. Multipliez et sommez, et vous avez propagé le gradient d'un pas en arrière. Répétez ce pas sur tout le graphe et vous avez entraîné le modèle.
▶ Règle de dérivation en chaîne : composition scalaire
← Géométrie de la hessienneRègle de dérivation en chaîne : forme matricielle →