Mehrdimensionale Analysis aus ersten Prinzipien
Fasse jede partielle Ableitung von f zu einem einzigen Vektor zusammen, und du erhältst den Gradienten, geschrieben ∇f ("grad f"). Jedes Optimierungsverfahren im Deep Learning beruht auf diesem einen Objekt, und so verdient es seinen Platz im Zentrum des Kurses.
Der Gradient ist nicht bloß Buchhaltung. Als Vektor im Eingaberaum besitzt er eine Richtung und eine Länge, und beide tragen Bedeutung. Die Richtung ist die des stärksten Anstiegs: Richte dich entlang ∇f aus, und die Funktion steigt so schnell, wie sie nur kann. Seine Länge ‖∇f‖ gibt genau an, wie steil dieser Anstieg ist.
Stell dir vor, du stehst bei Nebel auf einem grasbewachsenen Hügel. Der Gradient ∇f ist der Pfeil, der direkt den steilsten Teil des Hangs hinaufzeigt, und seine Länge verrät dir, wie anstrengend dieser Aufstieg ist. Setze einen Ball ab und lass ihn los: Er rollt in genau die entgegengesetzte Richtung und nimmt den schnellsten Weg nach unten.