Kritische Punkte in Rⁿ

Mehrdimensionale Analysis aus ersten Prinzipien

Die Optimierung in vielen Dimensionen beginnt genau dort, wo sie im 1-D-Fall begann: Finde die Stelle, an der die Steigung null ist. Doch jetzt ist „Steigung“ der gesamte Gradientvektor, sodass ein kritischer Punkt dort liegt, wo jede partielle Ableitung gleichzeitig verschwindet, ∇f = 0.

Dies ist notwendig, aber nicht hinreichend: Ein verschwindender Gradient kennzeichnet ein Minimum, ein Maximum oder einen Sattelpunkt. Um sie zu unterscheiden, ziehst du die Hesse-Matrix heran und liest die Vorzeichen ihrer Eigenwerte ab – den Test zweiter Ordnung aus Lektion 13. Der verschwindende Gradient lokalisiert den Kandidaten; die Hesse-Matrix klassifiziert ihn.

Gehe über einen hügeligen Golfplatz und suche nach den ebenen Stellen, den Orten, an denen ein Ball still liegen bleiben würde. Der Abschlag auf einer Hügelkuppe, das tiefe Grün in einer Senke und der flache Sattel entlang eines Kamms sind alles Orte, an denen der Boden vorübergehend in jede Richtung flach ist. Diese Flachheit ist ∇f = 0; ob man sich auf einem Gipfel, in einer Senke oder auf einem Sattel befindet, ist eine andere Frage, die die Hesse-Matrix beantwortet.

Wo das im ML vorkommtJeder gradientenbasierte Trainingslauf ist eine Suche nach ∇L = 0: Der Optimierer macht so lange Schritte, bis der Gradient vernachlässigbar klein wird. Wegen der Sattelpunkt-Geschichte (Lektion 13) findet er meist nicht „das“ globale Minimum, sondern eine von einer enormen Zahl nahezu gleichwertiger Regionen mit geringem Verlust. Dass der Gradientenabstieg zuverlässig in einer gut genug…
▶ Kritische Punkte in Rⁿ
← RechengraphenKonvexität →