Pontos Críticos em Rⁿ

Cálculo multivariável a partir dos primeiros princípios

A otimização em muitas dimensões começa exatamente onde começou em 1-D: encontra onde o declive é zero. Mas agora 'declive' é o vetor gradiente inteiro, por isso um ponto crítico é onde toda a derivada parcial se anula de uma vez, ∇f = 0.

Isto é necessário mas não suficiente: um gradiente zero marca um mínimo, um máximo, ou uma sela. Para os distinguir trazes a Hessiana e lês os sinais dos valores próprios, o teste de segunda ordem da Lição 13. O gradiente zero localiza o candidato; a Hessiana classifica-o.

Caminhe por um campo de golfe montanhoso e procure os pontos nivelados, os lugares onde uma bola ficaria parada. O tee no topo de uma colina, o green baixo numa depressão, e a sela plana ao longo de uma crista são todos pontos onde o chão é momentaneamente plano em todas as direções. Essa planura é ∇f = 0; se está num pico, numa depressão ou numa sela é uma questão separada que a matriz hessiana responde.

Onde isto aparece no MLTodo o treino baseado em gradiente é uma procura por ∇L = 0: o otimizador continua a dar passos até o gradiente ficar desprezivelmente pequeno. Por causa da história dos pontos de sela (Lição 13), o que ele costuma encontrar não é 'o' mínimo global, mas uma entre um número enorme de regiões de loss baixa quase equivalentes. O facto de o gradiente descendente pousar de forma fiável numa região boa…

▶ Pontos Críticos em Rⁿ

← Grafos de Computação Convexidade →