A Hessiana

Cálculo multivariável a partir dos primeiros princípios

O gradiente reuniu todas as primeiras derivadas. A Hessiana reúne todas as segundas derivadas de uma função escalar f: Rⁿ → R numa matriz. Onde o gradiente dá o declive, a Hessiana dá a curvatura: como o próprio declive varia à medida que te deslocas.

Pelo teorema de Clairaut (Lição 6), Hᵢⱼ = Hⱼᵢ, pelo que a Hessiana é sempre simétrica para as funções suaves que nos interessam. Isto é uma dádiva: as matrizes simétricas têm valores próprios reais e vetores próprios ortogonais, e esses valores próprios são exatamente as curvaturas ao longo das direções principais.

Se o gradiente é o velocímetro de uma superfície, a matriz hessiana é o seu painel de curvatura: reporta como a própria inclinação se curva em todas as direções de uma só vez. Uma superfície que curva para cima a toda a volta lê-se como o fundo de um vale; que curva para baixo a toda a volta lê-se como o topo de uma cúpula; para cima num sentido e para baixo noutro é uma sela. A matriz hessiana condensa tudo isso numa grelha simétrica de segundas derivadas.

Onde isto aparece no MLQuando o gradiente descendente rasteja por um vale longo e estreito, a ressaltar lentamente entre as paredes acentuadas, a Hessiana explica porquê. Os seus valores próprios são as curvaturas em cada direção, e uma grande diferença entre eles (um elevado número de condição) é exatamente esse vale: acentuado de um lado, quase plano do outro. Os métodos de segunda ordem como o de Newton, e, em…
▶ A Hessiana
← Geometria da JacobianaGeometria da Hessiana →