Taylor multivarié

Calcul multivarié depuis les premiers principes

L'approximation linéaire (Leçon 9) n'utilisait que le gradient et donnait un plan tangent plat. Ajoutez le terme suivant, celui construit à partir de la hessienne, et vous obtenez une approximation quadratique : un paraboloïde qui épouse la surface, capturant sa courbure, pas seulement son inclinaison.

Lisez les trois morceaux : f(x) est la hauteur, ∇fᵀδ est la correction linéaire (pente), et ½δᵀHδ est la correction quadratique (courbure). Ce dernier terme est une forme quadratique du pas, exactement l'objet dont les valeurs propres de la hessienne contrôlent le signe.

Un plan tangent plat reposant sur une surface courbe est comme poser une lame de verre rigide sur votre œil : elle touche à un endroit mais présente des espaces partout ailleurs. Une lentille de contact fait mieux parce qu'elle est courbée pour correspondre à la surface de l'œil, correspondant non seulement à l'endroit où se trouve l'œil mais à la façon dont il se courbe. Le terme hessien ½δᵀHδ est cette courbure intégrée : il permet à l'approximation d'épouser la surface au lieu de simplement s'y reposer.

Où cela apparaît en MLAu lieu de descendre pas à pas par petits pas de gradient, vous pourriez ajuster un paraboloïde à la perte et sauter directement à son fond. C'est la méthode de Newton : elle minimise exactement la quadratique locale, faisant le pas δ = −H⁻¹∇f, et converge bien plus vite que la simple descente de gradient quand la courbure varie beaucoup. Adam et ses semblables poursuivent la même correction de…

▶ Taylor multivarié

← Optimisation sous contrainte Intégrales doubles →