Hessische Geometrie

Mehrdimensionale Analysis aus ersten Prinzipien

Die Eigenwerte der Hesse-Matrix verwandeln die unklare Frage „Was für ein kritischer Punkt ist das?“ in eine übersichtliche Checkliste. An einem Punkt, an dem der Gradient null ist, verraten dir die Vorzeichen der Eigenwerte der Hesse-Matrix, ob du in einer Schale, auf einer Kuppel oder an einem Sattelpunkt sitzt.

Dies ist der mehrdimensionale Test mit der zweiten Ableitung und eine direkte Verallgemeinerung des 1-D-Falls: Dort bedeutete f″ > 0 ein Minimum und f″ ein Maximum. Die Eigenwerte der Hesse-Matrix sind die Versionen dieser einen Zahl für die vielen Richtungen.

Stell dir drei Snacks vor. Eine Schale Suppe wölbt sich nach oben, egal in welche Richtung man sie kippt, eine Kuppel aus Eiscreme wölbt sich überall nach unten, und ein Pringles-Chip biegt sich entlang seiner Länge nach oben, aber über seine Breite nach unten. Die Eigenwerte der Hesse-Matrix sind einfach die Krümmungen entlang dieser speziellen Richtungen: gleiches Vorzeichen bedeutet Schüssel oder Kuppel, entgegengesetzte Vorzeichen (wie 2 und −2) bedeuten den Chip, einen Sattel.

Wo das im ML vorkommtIn hohen Dimensionen übertreffen Sattelpunkte die lokalen Minima bei Weitem. Damit ein zufälliger kritischer Punkt in n Dimensionen ein echtes Minimum oder Maximum ist, müssten alle n Eigenwerte dasselbe Vorzeichen haben, was exponentiell unwahrscheinlich ist. Das Training eines tiefen Netzes besteht daher hauptsächlich darin, Sätteln zu entkommen – Stellen, an denen der Gradient klein ist, du…
▶ Hessische Geometrie
← Die Hesse-MatrixKettenregel: Skalare Komposition →