Geometría del Hessian

Cálculo multivariable desde primeros principios

Los valores propios del Hessian convierten la pregunta turbia '¿qué tipo de punto crítico es este?' en una lista clara. En un punto donde el gradiente es cero, los signos de los valores propios del Hessian te dicen si estás sentado en una taza, sobre una cúpula o en un punto silla.

Esta es la prueba del segundo derivado multivariable, y es una generalización directa de 1-D: allí, f″ > 0significaba un mínimo y f″ un máximo. Los valores propios del Hessian son las versiones en múltiples direcciones de ese único número.

Imagínate tres aperitivos. Un tazón de sopa se curva hacia arriba sin importar hacia dónde lo inclines, una cúpula de helado se curva hacia abajo por todas partes, y una patata Pringle se dobla hacia arriba a lo largo de su longitud pero hacia abajo a lo ancho. Los autovalores del hessiano son solo las curvaturas a lo largo de esas direcciones especiales: el mismo signo significa cuenco o cúpula, signos opuestos (como 2 y −2) significan la patata, una silla de montar.

Dónde aparece en el MLEn dimensiones altas, los puntos silla superan a los mínimos locales. Para un punto crítico aleatorio en ndimensiones, todos los nvalores propios tendrían que compartir el mismo signo para ser un verdadero mínimo o máximo, lo cual es exponencialmente improbable. Entonces entrenar una red profunda se trata principalmente de escapar de puntos silla, lugares donde la derivada es pequeña pero no…
▶ Geometría del Hessian
← El HessianoRegla de la Cadena: Composición Escalar →