Die Hesse-Matrix

Mehrdimensionale Analysis aus ersten Prinzipien

Der Gradient bündelte alle ersten Ableitungen. Die Hesse-Matrix bündelt alle zweiten Ableitungen einer skalaren Funktion f: Rⁿ → R in einer Matrix. Wo der Gradient die Steigung angibt, liefert die Hesse-Matrix die Krümmung: also wie sich die Steigung selbst ändert, wenn man sich bewegt.

Nach dem Satz von Clairaut (Lektion 6) gilt Hᵢⱼ = Hⱼᵢ, sodass die Hesse-Matrix für die glatten Funktionen, mit denen wir uns befassen, stets symmetrisch ist. Das ist ein Geschenk: Symmetrische Matrizen haben reelle Eigenwerte und orthogonale Eigenvektoren, und diese Eigenwerte sind genau die Krümmungen entlang der Hauptrichtungen.

Wenn der Gradient der Tachometer einer Oberfläche ist, ist die Hesse-Matrix ihr Krümmungsarmaturenbrett: Sie berichtet, wie sich die Steigung selbst gleichzeitig in jede Richtung biegt. Eine Oberfläche, die sich überall um dich herum nach oben wölbt, liest sich wie der Grund eines Tals; eine, die sich überall nach unten wölbt, liest sich wie die Spitze einer Kuppel; in eine Richtung nach oben und in eine andere nach unten ist ein Sattel. Die Hesse-Matrix packt all das in ein symmetrisches Gitter von zweiten Ableitungen.

Wo das im ML vorkommtWenn der Gradientenabstieg sich langsam durch ein langes, schmales Tal schleppt und dabei von den steilen Wänden abprallt, erklärt die Hesse-Matrix, warum. Ihre Eigenwerte sind die Krümmungen in jeder Richtung, und eine große Spreizung zwischen ihnen (eine hohe Konditionszahl) ist genau dieses Tal: in eine Richtung steil, in der anderen fast flach. Verfahren zweiter Ordnung wie Newton, und dem…

▶ Die Hesse-Matrix

← Jacobische Geometrie Hessische Geometrie →