A derivada

Cálculo de uma variável a partir dos primeiros princípios

A derivada responde a uma pergunta: com que rapidez uma função está a mudar num único instante? Geometricamente, isso é o declive da curva exatamente num ponto, o declive da reta tangente que apenas toca a curva ali.

Pense no velocímetro de um carro em movimento. A sua velocidade média ao longo de uma hora é a distância total dividida pelo tempo total, mas o ponteiro mostra algo mais apurado: a velocidade exata a que está a ir neste preciso instante. A derivada é esse ponteiro, a taxa de variação congelada num único momento em vez de espalhada por um intervalo.

Mas há aqui um problema. O declive precisa de dois pontos: subida sobre avanço. Um único ponto não te dá um sítio a partir do qual medir. Então como pode um ponto isolado ter declive? O truque é aproximarmo-nos dele.

Onde isto aparece no MLO gradiente que treina toda rede neural é exatamente esta derivada, aplicada à perda. A quantidade ∂L/∂w é o declive da perda quando mexes um pouco num peso w: o seu sinal diz-te que direção reduz a perda, e a sua magnitude diz-te quão sensível a perda é a esse peso. Treinar é apenas: avaliar este limite (um motor de autograd fá-lo por ti, exatamente — sem precisar de encolher h), e depois mover…
▶ A derivada
← ContinuidadeDiferenciabilidade →