O Gradiente

Cálculo multivariável a partir dos primeiros princípios

Junta todas as derivadas parciais de f num vetor e obténs o gradiente, escrito ∇f ("grad f"). Todos os otimizadores em deep learning assentam neste único objeto, por isso ele merece o seu lugar no centro do curso.

O gradiente não é apenas contabilidade. Enquanto vetor no espaço de entrada, tem direção e comprimento, e ambos têm significado. A direção é a de subida mais acentuada: orienta-te ao longo de ∇f e a função sobe o mais depressa possível. O seu comprimento ‖∇f‖ é exatamente quão acentuada é essa subida.

Imagine-se de pé numa colina relvada com nevoeiro. O gradiente ∇f é a seta que aponta diretamente para cima na parte mais íngreme da inclinação, e o seu comprimento diz-lhe quão extenuante é a subida. Pouse uma bola e largue-a: ela rola exatamente na direção oposta, tomando o caminho mais rápido para baixo.

Onde isto aparece no MLDe pé sobre a superfície de loss, queres dar um passo pela encosta abaixo o mais depressa possível. O gradiente ∇L aponta para o crescimento mais acentuado, por isso subtrai-lo: w ← w − η∇L, a atualização por trás do SGD, do Adam e de todos os outros otimizadores. O backpropagation existe por uma razão: calcular este vetor de forma eficiente.
▶ O Gradiente
← Parciais de Ordem SuperiorDerivada Direcional →