Le gradient

Calcul multivarié depuis les premiers principes

Rassemblez toutes les dérivées partielles de f en un seul vecteur et vous obtenez le gradient, noté ∇f (« grad f »). Tout optimiseur en apprentissage profond fonctionne grâce à cet unique objet, il mérite donc sa place au centre du cours.

Le gradient n'est pas qu'une simple comptabilité. En tant que vecteur dans l'espace des entrées, il a une direction et une longueur, et toutes deux ont un sens. La direction est celle de la plus forte montée : orientez-vous le long de ∇f et la fonction grimpe aussi vite que possible. Sa longueur ‖∇f‖ est exactement la raideur de cette montée.

Imaginez-vous debout sur une colline herbeuse dans le brouillard. Le gradient ∇f est la flèche qui pointe tout droit vers la partie la plus raide de la pente, et sa longueur vous indique à quel point cette montée est éprouvante. Posez une balle et lâchez-la : elle roule dans la direction exactement opposée, prenant le chemin le plus rapide pour descendre.

Où cela apparaît en MLDebout sur la surface de perte, vous voulez descendre la pente aussi vite que possible. Le gradient ∇L pointe vers la plus forte augmentation, vous le soustrayez donc : w ← w − η∇L, la mise à jour derrière SGD, Adam et tous les autres optimiseurs. La rétropropagation existe pour une seule raison : calculer efficacement ce vecteur.

▶ Le gradient

← Dérivées partielles d'ordre supérieur Dérivée directionnelle →