La hessienne

Calcul multivarié depuis les premiers principes

Le gradient regroupait toutes les dérivées premières. La hessienne regroupe toutes les dérivées secondes d'une fonction scalaire f: Rⁿ → R dans une matrice. Là où le gradient donne la pente, la hessienne donne la courbure : comment la pente elle-même change quand vous vous déplacez.

Par le théorème de Clairaut (leçon 6), Hᵢⱼ = Hⱼᵢ, donc la hessienne est toujours symétrique pour les fonctions régulières qui nous intéressent. C'est un cadeau : les matrices symétriques ont des valeurs propres réelles et des vecteurs propres orthogonaux, et ces valeurs propres sont exactement les courbures le long des directions principales.

Si le gradient est le compteur de vitesse d'une surface, le hessien est son tableau de bord de courbure : il rapporte comment la pente elle-même se courbe dans toutes les directions à la fois. Une surface qui s'incurve vers le haut tout autour de vous se lit comme le fond d'une vallée ; s'incurvant vers le bas tout autour se lit comme le sommet d'un dôme ; vers le haut dans un sens et vers le bas dans l'autre est une selle. Le hessien rassemble tout cela dans une grille symétrique de dérivées secondes.

Où cela apparaît en MLQuand la descente de gradient rampe au fond d'une longue vallée étroite, rebondissant lentement sur les parois raides, la hessienne explique pourquoi. Ses valeurs propres sont les courbures dans chaque direction, et un grand écart entre elles (un nombre de conditionnement élevé) est exactement cette vallée : raide dans un sens, presque plate dans l'autre. Les méthodes du second ordre comme…
▶ La hessienne
← Géométrie de la jacobienneGéométrie de la hessienne →