Die Ableitung

Eindimensionale Analysis aus ersten Prinzipien

Die Ableitung beantwortet eine einzige Frage: Wie schnell ändert sich eine Funktion in einem bestimmten Augenblick? Geometrisch ist das die Steigung der Kurve genau an einem Punkt, die Steigung der Tangente, die die Kurve dort nur eben berührt.

Denke an den Tachometer in einem fahrenden Auto. Deine Durchschnittsgeschwindigkeit über eine Stunde ist die Gesamtstrecke geteilt durch die Gesamtzeit, aber die Nadel zeigt etwas Schärferes: genau, wie schnell du in genau diesem Augenblick fährst. Die Ableitung ist diese Nadel, die Änderungsrate, eingefroren in einem einzigen Moment anstatt über ein Intervall verschmiert.

Doch hier liegt das Rätsel. Eine Steigung braucht zwei Punkte: Höhenänderung geteilt durch waagerechte Strecke. Ein einzelner Punkt bietet keinen Bezugspunkt zum Messen. Wie kann ein einzelner Punkt also überhaupt eine Steigung haben? Der Trick besteht darin, sich ihm schrittweise anzunähern.

Wo das im ML vorkommtDer Gradient, der jedes neuronale Netz trainiert, ist genau diese Ableitung, angewendet auf den Loss. Die Größe ∂L/∂w ist die Steigung des Loss, wenn Sie ein einzelnes Gewicht w ein wenig verändern: Ihr Vorzeichen zeigt Ihnen, in welche Richtung der Loss abnimmt, und ihr Betrag zeigt Ihnen, wie empfindlich der Loss auf dieses Gewicht reagiert. Training besteht im Wesentlichen genau darin: Werten…
▶ Die Ableitung
← StetigkeitDifferenzierbarkeit →