Regra da Cadeia: Forma Matricial

Cálculo multivariável a partir dos primeiros princípios

A fórmula de soma sobre caminhos é realmente multiplicação matricial escrita termo a termo. Quando funções são vetoriais, a regra da cadeia colapsa num produto limpo de Jacobianas, e esta é a forma que alimenta sistemas reais de autograd.

Para uma composição f ∘ g, a Jacobiana do conjunto é a Jacobiana da aplicação externa (avaliada na saída da interna) vezes a Jacobiana da aplicação interna:

A checagem de forma é o que faz clicar. Se g: Rⁿ → Rᵏ e f: Rᵏ → Rᵐ, então J_g é k×n, J_f é m×k, e seu produto é m×n, exatamente a forma que a aplicação global Rⁿ → Rᵐ exige. A dimensão interna k cancela, assim como em multiplicação matricial ordinária.

Onde isso aparece no MLEste produto é a razão pela qual as redes profundas sofrem com gradientes que desaparecem e que explodem. Multiplique muitas Jacobianas cujos valores singulares fiquem abaixo de 1 e o produto encolhe até quase nada; deixe-os acima de 1 e ele explode. As conexões residuais, a inicialização cuidadosa e a normalização existem justamente para manter este produto de Jacobianas perto de uma escala…
▶ Regra da Cadeia: Forma Matricial
← Regra da Cadeia: Composição EscalarGrafos de Computação →