Cálculo multivariável a partir dos primeiros princípios
Junta todas as derivadas parciais de f num vetor e obténs o gradiente, escrito ∇f ("grad f"). Todos os otimizadores em deep learning assentam neste único objeto, por isso ele merece o seu lugar no centro do curso.
O gradiente não é apenas contabilidade. Enquanto vetor no espaço de entrada, tem direção e comprimento, e ambos têm significado. A direção é a de subida mais acentuada: orienta-te ao longo de ∇f e a função sobe o mais depressa possível. O seu comprimento ‖∇f‖ é exatamente quão acentuada é essa subida.
Imagine-se de pé numa colina relvada com nevoeiro. O gradiente ∇f é a seta que aponta diretamente para cima na parte mais íngreme da inclinação, e o seu comprimento diz-lhe quão extenuante é a subida. Pouse uma bola e largue-a: ela rola exatamente na direção oposta, tomando o caminho mais rápido para baixo.