Regra da Cadeia: Composição Escalar

Cálculo multivariável a partir dos primeiros princípios

Reduz a backpropagation à sua matemática essencial e encontras este módulo. A regra da cadeia multivariável diz como derivar uma composição de funções, que é a única coisa que um motor de autograd realmente faz. Começamos com a versão escalar: como uma mudança numa entrada se propaga através de variáveis intermédias até à saída.

Supõe que z depende de intermédias y₁, y₂, …, que por sua vez dependem de entradas x. Para encontrar como z muda com uma entrada, soma sobre todos os caminhos daquela entrada à saída, multiplicando derivadas ao longo de cada caminho:

Cada termo (∂z/∂yₖ)(∂yₖ/∂xᵢ) é a contribuição de uma rota; somas todas as rotas. Se há apenas um caminho, colapsa na familiar regra da cadeia 1-D.

Onde isto aparece no MLEsta soma sobre caminhos é exatamente o backward pass através de um nó de uma rede. Cada intermédia yₖ é a ativação de um neurónio; ∂z/∂yₖ é o gradiente que flui de volta até ela; ∂yₖ/∂xᵢ é a derivada local daquela operação. Multiplica e soma, e terás propagado o gradiente um passo para trás. Repete esse passo ao longo de todo o grafo e terás treinado o modelo.
▶ Regra da Cadeia: Composição Escalar
← Geometria da HessianaRegra da Cadeia: Forma Matricial →