Pontos Críticos em Rⁿ

Cálculo multivariável a partir dos primeiros princípios

Otimização em muitas dimensões começa exatamente onde começou em 1-D: encontre onde a inclinação é zero. Mas agora 'inclinação' é o vetor gradiente inteiro, então um ponto crítico é onde toda derivada parcial se anula de uma vez, ∇f = 0.

Isto é necessário mas não suficiente: um gradiente zero marca um mínimo, um máximo, ou uma sela. Para distingui-los você traz a Hessiana e lê os sinais dos autovalores, o teste de segunda ordem da Lição 13. Gradiente zero localiza o candidato; a Hessiana o classifica.

Caminhe por um campo de golfe acidentado e procure pelos pontos nivelados, os lugares onde uma bola ficaria parada. O tee no topo da colina, o green baixo em uma depressão e a sela plana ao longo de uma crista são todos pontos onde o chão é momentaneamente plano em todas as direções. Essa planura é ∇f = 0; se você está em um pico, em uma depressão ou em uma sela é uma questão separada que o Hessiano responde.

Onde isso aparece no MLTodo treinamento baseado em gradiente é uma busca por ∇L = 0: o otimizador continua dando passos até o gradiente ficar desprezivelmente pequeno. Por causa da história dos pontos de sela (Lição 13), o que ele costuma encontrar não é 'o' mínimo global, mas uma entre um número enorme de regiões de loss baixa quase equivalentes. O fato de o gradiente descendente pousar de forma conconfiável numa…
▶ Pontos Críticos em Rⁿ
← Grafos de ComputaçãoConvexidade →