Prévia do Gradiente Descendente

Cálculo de uma variável a partir dos primeiros princípios

Suponha que você quer o ponto mais baixo de uma curva mas só consegue ver o chão diretamente sob seus pés — você sente a inclinação, nada mais. O que você faz? Simples: dê um passo na direção descendente, depois sinta de novo, depois dê outro passo. Repita. Isso é gradiente descendente, o algoritmo que treina essencialmente todo modelo de IA moderno.

Imagine caminhar ladeira abaixo sob um nevoeiro denso, tão espesso que você não consegue ver um passo à frente. Você não pode avistar o fundo do vale, mas ainda consegue sentir com o pé para qual lado o chão se inclina para baixo, e dar um passo nessa direção. Sinta, passo, sinta, passo. A descida de gradiente é exatamente essa marcha cega e paciente em direção ao terreno mais baixo.

Escrito como uma regra que atualiza sua posição a cada passo:

Onde isso aparece no MLEsta única linha é o coração de todo otimizador em deep learning. A atualização de pesos é idêntica em espírito: w ← w − η∇L, onde ∇L é apenas a derivada multidimensional (o gradiente) do próximo curso. SGD, Adam, RMSProp e o resto são todos refinamentos deste esqueleto — tamanhos de passo mais inteligentes, momentum, taxas por parâmetro — mas os ossos são exatamente a regra acima.…
▶ Prévia do Gradiente Descendente
← ConvexidadeProtocolo Sistemático de Esboço →