Regras do Produto & Quociente

Cálculo de uma variável a partir dos primeiros princípios

Quando duas funções são multiplicadas, não podes simplesmente multiplicar as suas derivadas. Esse é um atalho tentador, e errado. A regra correta tem em conta o facto de que ambos os fatores estão a mudar ao mesmo tempo.

Imagina um retângulo cuja largura é f e a altura é g; a sua área é f·g. Se ambos os lados crescem um pouco, a área cresce em duas frentes: uma faixa da largura maior, mais uma faixa da altura maior. É por isso que a resposta tem dois termos, não um.

Imagine um jardim retangular cuja largura e altura estão ambas a ser estendidas ao mesmo tempo. A nova área não é apenas uma tira, ganha uma tira ao longo da largura maior e uma tira ao longo da altura maior. É por isso que a regra do produto tem dois termos: quando duas quantidades em mudança se multiplicam, o crescimento de cada uma contribui com a sua própria fatia para o total.

Onde isto aparece no MLEstas regras são os blocos que o autograd compõe. Uma pontuação normalizada como uma probabilidade softmax ou um peso de atenção é um quociente (algo sobre uma soma), e diferenciá-la usa a regra do quociente nos bastidores. O escalonamento do batch-norm, a divisão do layer-norm por um desvio padrão: onde quer que uma rede divida uma quantidade aprendida por outra, a regra do quociente é o que o…
▶ Regras do Produto & Quociente
← Regras Básicas de DerivaçãoRegra da Cadeia →