Taylor Multivariável

Cálculo multivariável a partir dos primeiros princípios

A aproximação linear (Lição 9) usou apenas o gradiente e deu um plano tangente plano. Adicione o próximo termo, o construído a partir da Hessiana, e você obtém uma aproximação quadrática: um paraboloide que abraça a superfície, capturando sua curvatura, não apenas sua inclinação.

Leia as três peças: f(x) é a altura, ∇fᵀδ é a correção linear (inclinação), e ½δᵀHδ é a correção quadrática (curvatura). Aquele último termo é uma forma quadrática no passo, exatamente o objeto cujo sinal os autovalores da Hessiana controlam.

Um plano tangente reto descansando sobre uma superfície curva é como colocar uma lâmina de vidro rígida no seu olho: ele toca em um ponto, mas deixa vãos em todos os outros lugares. Uma lente de contato funciona melhor porque é curva para se adequar à superfície do olho, igualando não apenas onde o olho está, mas também como ele se curva. O termo Hessiano ½δᵀHδ é essa curvatura embutida: ele permite que a aproximação abrace a superfície em vez de apenas repousar sobre ela.

Onde isso aparece no MLEm vez de descer a ladeira a rastejar, um pequeno passo de gradiente de cada vez, você poderia ajustar um paraboloide à loss e saltar direto para o fundo dele. É isso o método de Newton: minimiza o quadrático local de forma exata, dando o passo δ = −H⁻¹∇f, e converge muito mais rápido que o gradiente descendente puro quando a curvatura varia muito. Adam e congêneres buscam a mesma correção de…
▶ Taylor Multivariável
← Otimização com RestriçõesIntegrais Duplas →