Calcul multivarié depuis les premiers principes
Rassemblez toutes les dérivées partielles de f en un seul vecteur et vous obtenez le gradient, noté ∇f (« grad f »). Tout optimiseur en apprentissage profond fonctionne grâce à cet unique objet, il mérite donc sa place au centre du cours.
Le gradient n'est pas qu'une simple comptabilité. En tant que vecteur dans l'espace des entrées, il a une direction et une longueur, et toutes deux ont un sens. La direction est celle de la plus forte montée : orientez-vous le long de ∇f et la fonction grimpe aussi vite que possible. Sa longueur ‖∇f‖ est exactement la raideur de cette montée.
Imaginez-vous debout sur une colline herbeuse dans le brouillard. Le gradient ∇f est la flèche qui pointe tout droit vers la partie la plus raide de la pente, et sa longueur vous indique à quel point cette montée est éprouvante. Posez une balle et lâchez-la : elle roule dans la direction exactement opposée, prenant le chemin le plus rapide pour descendre.