Differenzierbarkeit

Eindimensionale Analysis aus ersten Prinzipien

Eine Funktion ist an einem Punkt differenzierbar, wenn sie dort eine einzige, wohldefinierte Steigung besitzt: eine Tangente, keine Mehrdeutigkeit. Die meisten glatten Kurven sind überall differenzierbar. Doch manche Funktionen besitzen, obwohl sie vollkommen stetig sind, eine Stelle, an der sich die Steigung schlicht nicht festlegen lässt. Zu verstehen, wo Ableitungen versagen, ist genauso wichtig, wie sie zu berechnen.

Wenn eine Funktion an einem Punkt eine Steigung hat, kann sie dort keinen Sprung haben, also gilt differenzierbar ⇒ stetig. Die Umkehrung ist falsch: Eine Funktion kann stetig sein (zeichenbar, ohne den Stift abzusetzen) und dennoch an einem Punkt keine Steigung besitzen. Genau die Lücke zwischen "stetig" und "differenzierbar" ist das Interessante.

Der Betrag |x| ist das Standardbeispiel. Er ist überall stetig, ohne Sprung bei 0. Doch genau an der Ecke beträgt die von links kommende Steigung −1 und die nach rechts hinausgehende Steigung +1. Zwei verschiedene Steigungen treffen an einem spitzen Punkt aufeinander, sodass es keine eindeutige Tangente gibt. Die Ableitung existiert nicht bei x = 0.

Wo das im ML vorkommtReLU, die am häufigsten verwendete Aktivierungsfunktion, ist buchstäblich max(0, x): eine Ecke bei 0, genau wie bei |x|. Ihre Ableitung ist genau bei 0 nicht definiert, weshalb Frameworks dort einfach einen Wert wählen (meist 0), den man "Subgradient" nennt. Die Ecken von ReLU, die Knicke der L1-Regularisierung und die Nichtglattheit des Hinge-Loss sind allesamt Stellen, an denen genau dieses…
▶ Differenzierbarkeit
← Die AbleitungGrundregeln für Ableitungen →