Regra da Cadeia: Composição Escalar

Cálculo multivariável a partir dos primeiros princípios

Reduza a backpropagation à sua matemática essencial e você encontra este módulo. A regra da cadeia multivariável diz como derivar uma composição de funções, que é a única coisa que um motor de autograd realmente faz. Começamos com a versão escalar: como uma mudança numa entrada se propaga através de variáveis intermediárias até a saída.

Suponha que z depende de intermediárias y₁, y₂, …, que por sua vez dependem de entradas x. Para encontrar como z muda com uma entrada, some sobre todo caminho daquela entrada à saída, multiplicando derivadas ao longo de cada caminho:

Cada termo (∂z/∂yₖ)(∂yₖ/∂xᵢ) é a contribuição de uma rota; você soma todas as rotas. Se há apenas um caminho, colapsa à familiar regra da cadeia 1-D.

Onde isso aparece no MLEsta soma sobre caminhos é exatamente o backward pass através de um nó de uma rede. Cada intermediária yₖ é a ativação de um neurônio; ∂z/∂yₖ é o gradiente que flui de volta até ela; ∂yₖ/∂xᵢ é a derivada local daquela operação. Multiplique e some, e você terá propagado o gradiente um passo para trás. Repita esse passo ao longo de todo o grafo e você terá treinado o modelo.
▶ Regra da Cadeia: Composição Escalar
← Geometria da HessianaRegra da Cadeia: Forma Matricial →