Diferenciabilidade

Cálculo de uma variável a partir dos primeiros princípios

Uma função é diferenciável num ponto se tem um único declive bem definido ali: uma reta tangente, sem ambiguidade. A maioria das curvas suaves é diferenciável em todo o lado. Mas algumas funções, embora perfeitamente contínuas, têm um ponto onde o declive simplesmente não pode ser fixado. Perceber onde as derivadas falham é tão importante como calculá-las.

Se uma função tem declive num ponto, não pode ter um salto ali, portanto diferenciável ⇒ contínua. O contrário é falso: uma função pode ser contínua (desenhável sem levantar a caneta) e ainda assim não ter declive num ponto. A lacuna entre "contínua" e "diferenciável" é exatamente a parte interessante.

O valor absoluto |x| é o exemplo clássico. É contínuo em todo o lado, sem quebra em 0. Mas mesmo na quina, o declive vindo da esquerda é −1 e o declive a sair para a direita é +1. Dois declives diferentes encontram-se num ponto agudo, portanto não há tangente única. A derivada não existe em x = 0.

Onde isto aparece no MLReLU, a ativação mais comum, é literalmente max(0, x): uma quina em 0, tal como |x|. A sua derivada é indefinida mesmo em 0, portanto os frameworks simplesmente escolhem um valor (geralmente 0), chamado "subgradiente." As quinas de ReLU, as dobras da regularização L1, e a não-suavidade da hinge loss são todos sítios onde este problema exato aparece e é tratado com subgradientes.
▶ Diferenciabilidade
← A derivadaRegras Básicas de Derivação →