Cálculo multivariável a partir dos primeiros princípios
Junte todas as derivadas parciais de f num vetor e obtém o gradiente, escrito ∇f ("grad f"). Todos os otimizadores em deep learning assentam neste único objeto, por isso ele merece o seu lugar no centro do curso.
O gradiente não é apenas contabilidade. Enquanto vetor no espaço de entrada, ele tem direção e comprimento, e ambos têm significado. A direção é a de subida mais acentuada: oriente-se ao longo de ∇f e a função sobe o mais depressa possível. O seu comprimento ‖∇f‖ é exatamente quão acentuada é essa subida.
Imagine-se em pé em uma colina gramada com neblina. O gradiente ∇f é a seta que aponta direto para cima na parte mais íngreme da encosta, e seu comprimento lhe diz o quão punitiva é essa subida. Solte uma bola e deixe-a ir: ela rola exatamente na direção oposta, tomando o caminho mais rápido para baixo.