Prévisualisation du Gradient Descent

Calcul à une variable depuis les premiers principes

Supposez que vous voulez le point le plus bas d'une courbe mais que vous ne pouvez voir que le sol directement sous vos pieds - vous pouvez sentir la pente, rien de plus. Que faites-vous ? Simple : marchez dans la direction descendante, puis ressentez, puis marchez encore. Répétez. C'est le gradient descent, l'algorithme qui entraîne essentiellement tous les modèles d'intelligence artificielle modernes.

Imaginez descendre une colline dans un brouillard si épais que vous ne pouvez pas voir à un pas devant vous. Vous ne pouvez pas repérer le fond de la vallée, mais vous pouvez toujours sentir avec votre pied dans quelle direction le sol s'incline vers le bas, et faire un pas dans cette direction. Sentir, faire un pas, sentir, faire un pas. La descente de gradient est exactement ce glissement aveugle et patient vers le terrain le plus bas.

Écrit sous forme de règle qui met à jour votre position à chaque étape :

Où cela apparaît en MLCette seule ligne est le cœur de chaque optimiseur en apprentissage profond. La mise à jour du poids est identique dans l'esprit : w ← w − η∇L, où ∇L est simplement la dérivée multidimensionnelle (le gradient) du prochain cours. SGD, Adam, RMSProp et les autres sont tous des améliorations de ce squelette - pas plus intelligents, impulsion, taux par paramètre - mais les os sont exactement la règle…
▶ Prévisualisation du Gradient Descent
← ConvexitéProtocole de Schéma Systématique →