Richtungsableitung

Mehrdimensionale Analysis aus ersten Prinzipien

Partielle Ableitungen geben nur die Steigung entlang der Koordinatenachsen an, aber du kannst in beliebige Richtung gehen. Die Richtungsableitung D_u f beantwortet die Frage: Wenn ich entlang des Einheitsvektors u gehe, wie schnell ändert sich f? Die Antwort ist ein einziges Skalarprodukt mit dem Gradienten.

Stell dir vor, du wanderst über denselben Hügel, aber anstatt direkt bergauf zu blicken, wählst du eine Kompassrichtung, sagen wir Nordosten, und gehst diesen Weg. Die Richtungsableitung D_u f ist die Steigung, die du bei dieser Richtung tatsächlich unter deinen Stiefeln spürst. Wenn du dich in die steilste Richtung begibst, spürst du den vollen Anstieg; wenn du dich quer zum Hang drehst, fühlt sich der Boden flach an.

Da D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (weil u ein Einheitsvektor ist), ist die Änderungsrate genau dann am größten, wenn cos θ = 1 ist, das heißt, wenn u in Richtung von ∇f zeigt. Drehe den Richtungspfeil unten und beobachte, wie die Steigungsanzeige ihren Höchstwert erreicht, sobald er mit dem Gradienten übereinstimmt, und verschwindet, wenn er senkrecht dazu steht.

Wo das im ML vorkommtDies ist das Theorem, das den Gradientenabstieg rechtfertigt. Unter allen möglichen Schrittrichtungen verringert −∇L nachweislich den Verlust am schnellsten. Wenn du dich also je fragst, warum Trainingsschritte in Richtung des Gradienten statt in irgendeine andere Richtung erfolgen, hier ist die Antwort: Der Gradient ist die beste lokale Wahl, weshalb w ← w − η∇L die universelle Aktualisierung…
▶ Richtungsableitung
← Der GradientLineare Approximation →