Regras do Produto & Quociente

Cálculo de uma variável a partir dos primeiros princípios

Quando duas funções são multiplicadas, você não pode simplesmente multiplicar suas derivadas. Esse é um atalho tentador, e errado. A regra correta contabiliza o fato de que ambos os fatores estão mudando ao mesmo tempo.

Imagine um retângulo cuja largura é f e a altura é g; sua área é f·g. Se ambos os lados crescem um pouco, a área cresce em duas frentes: uma faixa da largura maior, mais uma faixa da altura maior. É por isso que a resposta tem dois termos, não um.

Imagine um jardim retangular cuja largura e altura estão ambas sendo estendidas ao mesmo tempo. A nova área não é apenas uma faixa, você ganha uma faixa ao longo da largura mais comprida e uma faixa ao longo da altura mais alta. É por isso que a regra do produto tem dois termos: quando duas quantidades em mudança se multiplicam, o crescimento de cada uma contribui com sua própria fatia para o total.

Onde isso aparece no MLEssas regras são os blocos que o autograd compõe. Uma pontuação normalizada como uma probabilidade softmax ou um peso de atenção é um quociente (algo sobre uma soma), e diferenciá-la usa a regra do quociente nos bastidores. O escalonamento do batch-norm, a divisão do layer-norm por um desvio padrão: onde quer que uma rede divida uma quantidade aprendida por outra, a regra do quociente é o que o…
▶ Regras do Produto & Quociente
← Regras Básicas de DerivaçãoRegra da Cadeia →