A derivada

Cálculo de uma variável a partir dos primeiros princípios

A derivada responde a uma pergunta: quão depressa uma função está mudando em um único instante? Geometricamente, isso é a inclinação da curva exatamente em um ponto, a inclinação da reta tangente que apenas toca a curva ali.

Pense no velocímetro de um carro em movimento. Sua velocidade média ao longo de uma hora é a distância total dividida pelo tempo total, mas a agulha mostra algo mais preciso: exatamente o quão rápido você está indo neste exato instante. A derivada é essa agulha, a taxa de mudança congelada em um único momento, em vez de espalhada por um intervalo.

Mas há aqui um problema. A inclinação precisa de dois pontos: subida sobre avanço. Um único ponto não dá a você a partir de onde medir. Então como pode um ponto isolado ter inclinação? O truque é nos aproximarmos dele.

Onde isso aparece no MLO gradiente que treina toda rede neural é exatamente esta derivada, aplicada à perda. A quantidade ∂L/∂w é a inclinação da perda quando você mexe um pouco em um peso w: o seu sinal diz a você que direção reduz a perda, e a sua magnitude diz a você quão sensível a perda é a esse peso. Treinar é apenas: avaliar este limite (um motor de autograd faz isso por você, exatamente — sem precisar encolher…
▶ A derivada
← ContinuidadeDiferenciabilidade →