Prévia do Gradiente Descendente

Cálculo de uma variável a partir dos primeiros princípios

Supõe que queres o ponto mais baixo de uma curva mas só consegues ver o chão diretamente sob os teus pés — sentes o declive, nada mais. O que fazes? Simples: dá um passo na direção descendente, depois sente de novo, depois dá outro passo. Repete. Isto é o gradiente descendente, o algoritmo que treina essencialmente todo o modelo de IA moderno.

Imagine caminhar colina abaixo num nevoeiro tão denso que não consegue ver um passo à frente. Não consegue ver o fundo do vale, mas ainda consegue sentir com o seu pé para que lado o terreno desce, e dar um passo nesse sentido. Sente, passo, sente, passo. A descida de gradiente (gradient descent) é exatamente este arrastar cego e paciente até ao terreno mais baixo.

Escrito como uma regra que atualiza a tua posição a cada passo:

Onde isto aparece no MLEsta única linha é o coração de todo o otimizador em deep learning. A atualização de pesos é idêntica em espírito: w ← w − η∇L, onde ∇L é apenas a derivada multidimensional (o gradiente) do próximo curso. SGD, Adam, RMSProp e o resto são todos refinamentos deste esqueleto — tamanhos de passo mais inteligentes, momentum, taxas por parâmetro — mas os ossos são exatamente a regra acima. A…
▶ Prévia do Gradiente Descendente
← ConvexidadeProtocolo Sistemático de Esboço →