Règle de la chaîne

Calcul à une variable depuis les premiers principes

La règle de la chaîne est la règle sur laquelle le backpropagation est basé. Elle vous dit comment dériver une composition : une fonction à l'intérieur d'une autre, comme f(g(x)).

Pour dériver "extérieur de l'intérieur," prenez la dérivée extérieure (laissez l'intérieur tel quel), puis multipliez par la dérivée intérieure. Les taux de changement se multiplient le long de la chaîne.

Pensez-y comme un pipeline : x → g → f. Un petit ajustement dans x est amplifié par g′, puis cet ajustement est amplifié à nouveau par f′. L'amplification totale est le produit des deux. La figure trace les dérivées se multipliant le long de la composition.

Où cela apparaît en MLLe backpropagation est la règle de la chaîne, exécutée en sens inverse dans un réseau. Un grand réseau est une grande composition (couche après couche), et le gradient de la perte par rapport à un poids précoce est un produit de dérivées locales, une par couche, multipliées le long du chemin. C'est pourquoi les "gradients en traine" se produisent : multiplier beaucoup de petites dérivées et le…
▶ Règle de la chaîne
← Règles du produit et du quotientDifférentiation implicite →