Geometria della Hessiana

Calcolo multivariabile dai primi principi

Gli autovalori della Hessiana trasformano la domanda nebulosa 'che tipo di punto critico è questo?' in una checklist pulita. In un punto dove il gradiente è zero, i segni degli autovalori della Hessiana ti dicono se sei in una ciotola, su una cupola, o a una sella.

Questo è il test della derivata seconda multivariabile, ed è una generalizzazione diretta dell'1-D: lì, f″ > 0 significava un minimo e f″ un massimo. Gli autovalori della Hessiana sono le versioni in molte direzioni di quel singolo numero.

Immagina tre spuntini. Una ciotola di zuppa si incurva verso l'alto indipendentemente da come la inclini, una cupola di gelato si incurva verso il basso ovunque, e una patatina Pringle si piega verso l'alto lungo la sua lunghezza ma verso il basso attraverso la sua larghezza. Gli autovalori dell'Hessiana sono semplicemente le curvature lungo quelle direzioni speciali: segno uguale significa ciotola o cupola, segni opposti (come 2 e −2) significano la patatina, una sella.

Dove si trova nel MLIn alte dimensioni, i punti di sella superano di gran lunga i minimi locali. Perché un punto critico casuale in n dimensioni sia un vero minimo o massimo, tutti gli n autovalori dovrebbero avere lo stesso segno, il che è esponenzialmente improbabile. Addestrare una rete profonda consiste quindi soprattutto nel sfuggire alle selle, ossia ai punti in cui il gradiente è piccolo ma si è lontani dal…
▶ Geometria della Hessiana
← La HessianaRegola della Catena: Composizione Scalare →