Diferenciabilidade

Cálculo de uma variável a partir dos primeiros princípios

Uma função é diferenciável em um ponto se tem uma única inclinação bem definida ali: uma reta tangente, sem ambiguidade. A maioria das curvas suaves é diferenciável em todo lugar. Mas algumas funções, embora perfeitamente contínuas, têm um ponto onde a inclinação simplesmente não pode ser fixada. Entender onde as derivadas falham é tão importante quanto calculá-las.

Se uma função tem inclinação em um ponto, não pode ter um salto ali, então diferenciável ⇒ contínua. O reverso é falso: uma função pode ser contínua (desenhável sem levantar a caneta) e ainda assim não ter inclinação em um ponto. A lacuna entre "contínua" e "diferenciável" é exatamente a parte interessante.

O valor absoluto |x| é o exemplo clássico. É contínuo em todo lugar, sem quebra em 0. Mas bem na quina, a inclinação vindo da esquerda é −1 e a inclinação saindo para a direita é +1. Duas inclinações diferentes se encontram em um ponto agudo, então não há tangente única. A derivada não existe em x = 0.

Onde isso aparece no MLReLU, a ativação mais comum, é literalmente max(0, x): uma quina em 0, assim como |x|. Sua derivada é indefinida bem em 0, então os frameworks simplesmente escolhem um valor (geralmente 0), chamado de "subgradiente." As quinas de ReLU, as dobras da regularização L1, e a não-suavidade da hinge loss são todos lugares onde esse problema exato aparece e é tratado com subgradientes.
▶ Diferenciabilidade
← A derivadaRegras Básicas de Derivação →