Cálculo multivariável a partir dos primeiros princípios
Reduz a backpropagation à sua matemática essencial e encontras este módulo. A regra da cadeia multivariável diz como derivar uma composição de funções, que é a única coisa que um motor de autograd realmente faz. Começamos com a versão escalar: como uma mudança numa entrada se propaga através de variáveis intermédias até à saída.
Supõe que z depende de intermédias y₁, y₂, …, que por sua vez dependem de entradas x. Para encontrar como z muda com uma entrada, soma sobre todos os caminhos daquela entrada à saída, multiplicando derivadas ao longo de cada caminho:
Cada termo (∂z/∂yₖ)(∂yₖ/∂xᵢ) é a contribuição de uma rota; somas todas as rotas. Se há apenas um caminho, colapsa na familiar regra da cadeia 1-D.