La jacobienne

Calcul multivarié depuis les premiers principes

Lorsque la sortie est elle aussi un vecteur, une fonction f: Rⁿ → Rᵐ, un seul gradient ne suffit pas. Il vous faut la dérivée partielle de chaque sortie par rapport à chaque entrée. Empilez-les toutes dans une matrice et vous obtenez la jacobienne J, la dérivée première complète d'une application à valeurs vectorielles.

La ligne i de J n'est autre que le gradient de la i-ème sortie. La jacobienne est donc un empilement de gradients, un par coordonnée de sortie. Sa forme est m × n : autant de lignes que de sorties, autant de colonnes que d'entrées.

Pensez à la table de mixage d'un ingénieur du son, où chaque canal de sortie réagit à chaque bouton d'entrée. Le jacobien est ce tableau de sensibilité écrit : chaque entrée indique de combien une sortie se déplace lorsque vous poussez un bouton d'entrée. Lisez sur une ligne pour voir tout ce qui contrôle une seule sortie ; lisez dans une colonne pour voir tout ce qu'un bouton contrôle.

Où cela apparaît en MLLa jacobienne d'une couche indique comment une petite perturbation de son entrée modifie sa sortie, l'étirement-compression local de cette couche. La rétropropagation consiste simplement à multiplier ces jacobiennes couche par couche (module suivant). Quand on s'inquiète des gradients qui s'évanouissent ou explosent, on s'inquiète du fait que ce produit de jacobiennes de couches rétrécisse…
▶ La jacobienne
← Approximation linéaireGéométrie de la jacobienne →