Derivada Direcional

Cálculo multivariável a partir dos primeiros princípios

As derivadas parciais só dão o declive ao longo dos eixos coordenados, mas tu podes caminhar em qualquer direção. A derivada direcional D_u f responde: se eu der um passo ao longo do vetor unitário u, com que rapidez varia f? A resposta acaba por ser um único produto escalar com o gradiente.

Imagine caminhar por essa mesma colina, mas em vez de virado diretamente para cima escolhe um rumo da bússola, digamos nordeste, e caminha nessa direção. A derivada direcional D_u f é a inclinação que efetivamente sente debaixo das suas botas ao longo desse percurso. Vá na direção mais íngreme e sentirá toda a subida; vire de lado ao longo da encosta e o chão parecerá plano.

Como D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (porque u é um vetor unitário), a taxa de variação é máxima exatamente quando cos θ = 1, ou seja, quando u aponta ao longo de ∇f. Roda a seta de direção abaixo e observa a leitura do declive atingir o máximo quando ela se alinha com o gradiente e anular-se quando lhe é perpendicular.

Onde isto aparece no MLEste é o teorema que justifica o gradiente descendente. De entre todas as direções em que poderias dar um passo, −∇L é comprovadamente a que diminui a loss mais depressa. Por isso, se alguma vez te perguntares por que é que o treino dá passos ao longo do gradiente e não noutra direção qualquer, eis a resposta: o gradiente é a melhor escolha local, e é por isso que w ← w − η∇L é a atualização…
▶ Derivada Direcional
← O GradienteAproximação Linear →