Regra da Cadeia

Cálculo de uma variável a partir dos primeiros princípios

A regra da cadeia é a regra sobre a qual o backpropagation é construído. Diz-te como diferenciar uma composição: uma função dentro de outra, como f(g(x)).

Para diferenciar "externa de interna", toma a derivada externa (deixando a interna em paz), depois multiplica pela derivada interna. As taxas de variação multiplicam-se ao longo da cadeia.

Pensa nisto como um pipeline: x → g → f. Um empurrão em x é amplificado por g′, depois esse empurrão é amplificado de novo por f′. A amplificação total é o produto dos dois. A figura traça as derivadas a multiplicarem-se ao longo da composição.

Onde isto aparece no MLBackpropagation é a regra da cadeia, executada de trás para a frente através de uma rede. Uma rede profunda é uma composição gigante (camada após camada após camada), e o gradiente da loss em relação a um peso inicial é um produto de derivadas locais, uma por camada, multiplicadas ao longo do caminho. É por isso que os "gradientes que desaparecem" acontecem: multiplica muitas derivadas pequenas e…
▶ Regra da Cadeia
← Regras do Produto & QuocienteDiferenciação Implícita →