Kettenregel: Skalare Komposition

Mehrdimensionale Analysis aus ersten Prinzipien

Wenn man die Backpropagation auf ihren mathematischen Kern reduziert, stößt man auf dieses Modul. Die multivariate Kettenregel sagt dir, wie man eine Verkettung von Funktionen ableitet – das Einzige, was eine Autograd-Engine eigentlich tut. Wir beginnen mit der skalaren Version: wie sich eine Änderung an einer Eingabe über Zwischengrößen bis zur Ausgabe fortpflanzt.

Angenommen, z hängt von Zwischengrößen y₁, y₂, … ab, die ihrerseits von Eingaben x abhängen. Um zu bestimmen, wie sich z mit einer Eingabe ändert, summiere über jeden Pfad von dieser Eingabe zur Ausgabe und multipliziere dabei die Ableitungen entlang jedes Pfades:

Jeder Term (∂z/∂yₖ)(∂yₖ/∂xᵢ) ist der Beitrag eines Pfades; du addierst alle Pfade auf. Gibt es nur einen Pfad, reduziert sich das auf die bekannte 1-D-Kettenregel.

Wo das im ML vorkommtDiese Summe über Pfade ist genau der Rückwärtspass durch einen Knoten eines Netzwerks. Jede Zwischengröße yₖ ist die Aktivierung eines Neurons; ∂z/∂yₖ ist der Gradient, der in das Neuron zurückfließt; ∂yₖ/∂xᵢ ist die lokale Ableitung dieser Operation. Multipliziere und summiere, und schon hast du den Gradienten einen Schritt zurück propagiert. Wiederhole diesen Schritt über den gesamten Graphen,…

▶ Kettenregel: Skalare Komposition

← Hessische Geometrie Kettenregel: Matrixform →