Mehrdimensionale Analysis aus ersten Prinzipien
Wenn man die Backpropagation auf ihren mathematischen Kern reduziert, stößt man auf dieses Modul. Die multivariate Kettenregel sagt dir, wie man eine Verkettung von Funktionen ableitet – das Einzige, was eine Autograd-Engine eigentlich tut. Wir beginnen mit der skalaren Version: wie sich eine Änderung an einer Eingabe über Zwischengrößen bis zur Ausgabe fortpflanzt.
Angenommen, z hängt von Zwischengrößen y₁, y₂, … ab, die ihrerseits von Eingaben x abhängen. Um zu bestimmen, wie sich z mit einer Eingabe ändert, summiere über jeden Pfad von dieser Eingabe zur Ausgabe und multipliziere dabei die Ableitungen entlang jedes Pfades:
Jeder Term (∂z/∂yₖ)(∂yₖ/∂xᵢ) ist der Beitrag eines Pfades; du addierst alle Pfade auf. Gibt es nur einen Pfad, reduziert sich das auf die bekannte 1-D-Kettenregel.