Géométrie de la hessienne

Calcul multivarié depuis les premiers principes

Les valeurs propres de la hessienne transforment la question floue « de quel type de point critique s'agit-il ? » en une liste de contrôle nette. En un point où le gradient est nul, les signes des valeurs propres de la hessienne vous disent si vous êtes assis dans un bol, sur un dôme, ou à une selle.

C'est le test de la dérivée seconde à plusieurs variables, et c'est une généralisation directe du cas 1-D : là, f″ > 0 signifiait un min et f″ un max. Les valeurs propres de la hessienne sont les versions multi-directionnelles de ce seul nombre.

Imaginez trois collations. Un bol de soupe s'incurve vers le haut, peu importe comment vous l'inclinez, un dôme de crème glacée s'incurve vers le bas partout, et une chips Pringle se courbe vers le haut sur sa longueur mais vers le bas sur sa largeur. Les valeurs propres du hessien ne sont que les courbures le long de ces directions spéciales : même signe signifie bol ou dôme, signes opposés (comme 2 et −2) signifient la chips, une selle.

Où cela apparaît en MLEn grande dimension, les points selles dépassent largement en nombre les minima locaux. Pour un point critique aléatoire en n dimensions, toutes les n valeurs propres devraient partager un même signe pour qu'il soit un vrai min ou max, ce qui est exponentiellement improbable. Entraîner un réseau profond consiste donc surtout à échapper aux selles, des endroits où le gradient est petit mais où…
▶ Géométrie de la hessienne
← La hessienneRègle de dérivation en chaîne : composition scalaire →