Der Gradient

Mehrdimensionale Analysis aus ersten Prinzipien

Fasse jede partielle Ableitung von f zu einem einzigen Vektor zusammen, und du erhältst den Gradienten, geschrieben ∇f ("grad f"). Jedes Optimierungsverfahren im Deep Learning beruht auf diesem einen Objekt, und so verdient es seinen Platz im Zentrum des Kurses.

Der Gradient ist nicht bloß Buchhaltung. Als Vektor im Eingaberaum besitzt er eine Richtung und eine Länge, und beide tragen Bedeutung. Die Richtung ist die des stärksten Anstiegs: Richte dich entlang ∇f aus, und die Funktion steigt so schnell, wie sie nur kann. Seine Länge ‖∇f‖ gibt genau an, wie steil dieser Anstieg ist.

Stell dir vor, du stehst bei Nebel auf einem grasbewachsenen Hügel. Der Gradient ∇f ist der Pfeil, der direkt den steilsten Teil des Hangs hinaufzeigt, und seine Länge verrät dir, wie anstrengend dieser Aufstieg ist. Setze einen Ball ab und lass ihn los: Er rollt in genau die entgegengesetzte Richtung und nimmt den schnellsten Weg nach unten.

Wo das im ML vorkommtWenn du auf der Verlustfläche stehst, willst du so schnell wie möglich bergab gehen. Der Gradient ∇L zeigt in Richtung des stärksten Anstiegs, also subtrahierst du ihn: w ← w − η∇L, das Update hinter SGD, Adam und jedem anderen Optimierer. Backpropagation existiert aus einem einzigen Grund: um diesen Vektor effizient zu berechnen.
▶ Der Gradient
← Höhere partielle AbleitungenRichtungsableitung →