Dérivée directionnelle

Calcul multivarié depuis les premiers principes

Les dérivées partielles ne vous indiquent que la pente le long des axes de coordonnées, mais vous pouvez vous éloigner dans n'importe quelle direction. La dérivée directionnelle D_u f répond à : si j'avance le long du vecteur unitaire u, à quelle vitesse f change-t-elle ? La réponse s'avère être un simple produit scalaire avec le gradient.

Imaginez que vous faites une randonnée sur cette même colline, mais au lieu de faire face tout droit à la montée, vous choisissez un cap sur la boussole, disons nord-est, et vous marchez dans cette direction. La dérivée directionnelle D_u f est la pente que vous ressentez réellement sous vos bottes le long de ce cap. Dirigez-vous vers la direction la plus raide et vous ressentez toute la montée ; tournez-vous sur le côté le long de la colline et le sol semble plat.

Puisque D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (car u est un vecteur unitaire), le taux de variation est maximal exactement lorsque cos θ = 1, c'est-à-dire lorsque u pointe le long de ∇f. Faites tourner la flèche de direction ci-dessous et observez l'affichage de la pente atteindre son maximum lorsqu'elle s'aligne avec le gradient et s'annuler lorsqu'elle lui est perpendiculaire.

Où cela apparaît en MLC'est le théorème qui justifie la descente de gradient. Parmi toutes les directions dans lesquelles vous pourriez avancer, −∇L diminue la perte le plus rapidement de façon prouvée. Donc si vous vous demandez un jour pourquoi les pas d'entraînement suivent le gradient plutôt qu'une autre direction, voici la réponse : le gradient est le meilleur choix local, c'est pourquoi w ← w − η∇L est la mise à…
▶ Dérivée directionnelle
← Le gradientApproximation linéaire →