A Jacobiana

Cálculo multivariável a partir dos primeiros princípios

Quando a saída também é um vetor, uma função f: Rⁿ → Rᵐ, um único gradiente não chega. Precisas da parcial de cada saída em relação a cada entrada. Empilha-as todas numa matriz e obténs a Jacobiana J, a primeira derivada completa de uma aplicação vetorial.

A linha i de J é apenas o gradiente da i-ésima saída. A Jacobiana é, portanto, uma pilha de gradientes, um por cada coordenada de saída. A sua forma é m × n: tantas linhas quantas saídas, tantas colunas quantas entradas.

Pense na mesa de mistura de um engenheiro de som, onde cada canal de saída responde a cada botão de entrada. A matriz jacobiana é essa tabela de sensibilidades escrita: cada entrada diz o quanto uma saída se move quando dá um toque num botão de entrada. Leia ao longo de uma linha para ver tudo o que impulsiona uma única saída; leia ao longo de uma coluna para ver tudo o que um botão controla.

Onde isto aparece no MLA Jacobiana de uma camada diz como uma pequena perturbação na sua entrada altera a sua saída, o esticar-e-comprimir local dessa camada. O backpropagation não é mais do que multiplicar entre si estas Jacobianas camada a camada (próximo módulo). Quando se fala em gradientes que desaparecem ou explodem, está em causa esse produto de Jacobianas das camadas a encolher até ao nada ou a disparar para o…

▶ A Jacobiana

← Aproximação Linear Geometria da Jacobiana →