Geometria da Hessiana

Cálculo multivariável a partir dos primeiros princípios

Os valores próprios da Hessiana transformam a nebulosa pergunta 'que tipo de ponto crítico é este?' numa checklist limpa. Num ponto onde o gradiente é zero, os sinais dos valores próprios da Hessiana dizem se estás numa tigela, numa cúpula, ou numa sela.

Este é o teste da segunda derivada multivariável, e é uma generalização direta do 1-D: lá, f″ > 0 significava mínimo e f″ máximo. Os valores próprios da Hessiana são as versões de muitas direções daquele único número.

Imagine três snacks. Uma tigela de sopa curva para cima independentemente de como a incline, uma cúpula de gelado curva para baixo em todos os lados, e uma batata frita Pringle curva para cima ao longo do seu comprimento, mas para baixo na sua largura. Os valores próprios da matriz hessiana são simplesmente as curvaturas ao longo dessas direções especiais: sinal igual significa tigela ou cúpula, sinais opostos (como 2 e −2) significam a batata frita, uma sela.

Onde isto aparece no MLEm alta dimensão, os pontos de sela superam de longe os mínimos locais. Para um ponto crítico aleatório em n dimensões, todos os n valores próprios teriam de partilhar um sinal para que fosse um mínimo ou máximo verdadeiro, o que é exponencialmente improvável. Por isso treinar uma rede profunda é em grande parte escapar de selas, lugares onde o gradiente é pequeno mas estás longe do fundo, em vez…
▶ Geometria da Hessiana
← A HessianaRegra da Cadeia: Composição Escalar →