O Gradiente

Cálculo multivariável a partir dos primeiros princípios

Junte todas as derivadas parciais de f num vetor e obtém o gradiente, escrito ∇f ("grad f"). Todos os otimizadores em deep learning assentam neste único objeto, por isso ele merece o seu lugar no centro do curso.

O gradiente não é apenas contabilidade. Enquanto vetor no espaço de entrada, ele tem direção e comprimento, e ambos têm significado. A direção é a de subida mais acentuada: oriente-se ao longo de ∇f e a função sobe o mais depressa possível. O seu comprimento ‖∇f‖ é exatamente quão acentuada é essa subida.

Imagine-se em pé em uma colina gramada com neblina. O gradiente ∇f é a seta que aponta direto para cima na parte mais íngreme da encosta, e seu comprimento lhe diz o quão punitiva é essa subida. Solte uma bola e deixe-a ir: ela rola exatamente na direção oposta, tomando o caminho mais rápido para baixo.

Onde isso aparece no MLDe pé sobre a superfície de loss, você quer dar um passo pela encosta abaixo o mais depressa possível. O gradiente ∇L aponta para o crescimento mais acentuado, por isso você subtrai-o: w ← w − η∇L, a atualização por trás do SGD, do Adam e de todos os outros otimizadores. O backpropagation existe por uma razão: calcular este vetor de forma eficiente.
▶ O Gradiente
← Parciais de Ordem SuperiorDerivada Direcional →