Taylor Multivariável

Cálculo multivariável a partir dos primeiros princípios

A aproximação linear (Lição 9) usou apenas o gradiente e deu um plano tangente plano. Adiciona o próximo termo, o construído a partir da Hessiana, e obténs uma aproximação quadrática: um paraboloide que abraça a superfície, capturando a sua curvatura, não apenas o seu declive.

Lê as três peças: f(x) é a altura, ∇fᵀδ é a correção linear (declive), e ½δᵀHδ é a correção quadrática (curvatura). Aquele último termo é uma forma quadrática no passo, exatamente o objeto cujo sinal os valores próprios da Hessiana controlam.

Um plano tangente plano apoiado numa superfície curva é como colocar uma lâmina de vidro rígida no seu olho: toca num ponto, mas deixa falhas em todos os outros lados. Uma lente de contacto faz melhor porque é curva para se ajustar à superfície do olho, combinando não apenas com onde o olho está mas como ele curva. O termo da matriz hessiana ½δᵀHδ é essa curvatura embutida: permite que a aproximação abrace a superfície em vez de apenas descansar nela.

Onde isto aparece no MLEm vez de descer a ladeira a rastejar, um pequeno passo de gradiente de cada vez, poderias ajustar um paraboloide à loss e saltar direto para o fundo dele. É isto o método de Newton: minimiza o quadrático local de forma exata, dando o passo δ = −H⁻¹∇f, e converge muito mais depressa que o gradiente descendente puro quando a curvatura varia muito. O Adam e congéneres procuram a mesma correção de…
▶ Taylor Multivariável
← Otimização com RestriçõesIntegrais Duplas →