Geometria da Hessiana

Cálculo multivariável a partir dos primeiros princípios

Os autovalores da Hessiana transformam a nebulosa pergunta 'que tipo de ponto crítico é este?' numa checklist limpa. Num ponto onde o gradiente é zero, os sinais dos autovalores da Hessiana dizem se você está numa tigela, numa cúpula, ou numa sela.

Este é o teste da segunda derivada multivariável, e é uma generalização direta do 1-D: lá, f″ > 0 significava mínimo e f″ máximo. Os autovalores da Hessiana são as versões de muitas direções daquele único número.

Imagine três lanches. Uma tigela de sopa curva-se para cima não importa para qual lado você a incline, uma cúpula de sorvete curva-se para baixo em todas as partes, e uma batata Pringle curva-se para cima em seu comprimento, mas para baixo em sua largura. Os autovalores do Hessiano são apenas as curvaturas ao longo daquelas direções especiais: mesmo sinal significa tigela ou cúpula, sinais opostos (como 2 e −2) significa a batata, uma sela.

Onde isso aparece no MLEm alta dimensão, pontos de sela superam em muito mínimos locais. Para um ponto crítico aleatório em n dimensões, todos n autovalores teriam que compartilhar um sinal para que fosse um mínimo ou máximo verdadeiro, o que é exponencialmente improvável. Então treinar uma rede profunda é em grande parte sobre escapar de selas, lugares onde o gradiente é pequeno mas você está longe do fundo, em vez de…
▶ Geometria da Hessiana
← A HessianaRegra da Cadeia: Composição Escalar →