Derivada Direcional

Cálculo multivariável a partir dos primeiros princípios

As derivadas parciais só dão a inclinação ao longo dos eixos coordenados, mas você pode caminhar em qualquer direção. A derivada direcional D_u f responde: se eu der um passo ao longo do vetor unitário u, com que rapidez varia f? A resposta acaba por ser um único produto escalar com o gradiente.

Imagine caminhar por aquela mesma colina, mas em vez de olhar direto para cima, você escolhe uma direção na bússola, digamos nordeste, e caminha por lá. A derivada direcional D_u f é a inclinação que você realmente sente sob suas botas ao longo dessa direção. Vá em direção à direção mais íngreme e você sentirá a subida completa; vire de lado ao longo da encosta e o chão parecerá plano.

Como D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (porque u é um vetor unitário), a taxa de variação é máxima exatamente quando cos θ = 1, ou seja, quando u aponta ao longo de ∇f. Rode a seta de direção abaixo e observe a leitura da inclinação atingir o máximo quando ela se alinha com o gradiente e se anular quando lhe é perpendicular.

Onde isso aparece no MLEste é o teorema que justifica o gradiente descendente. De entre todas as direções em que você poderia dar um passo, −∇L é comprovadamente a que diminui a loss mais depressa. Por isso, se alguma vez se perguntar por que é que o treinamento dá passos ao longo do gradiente e não noutra direção qualquer, eis a resposta: o gradiente é a melhor escolha local, e é por isso que w ← w − η∇L é a…
▶ Derivada Direcional
← O GradienteAproximação Linear →