Analiza wielowymiarowa od pierwszych zasad
Zdekomponuj propagację wsteczną (backpropagation) do samej matematyki, a znajdziesz ten moduł. Wielowymiarowa reguła łańcuchowa mówi o tym, jak różniczkować złożenie funkcji, co jest jedyną rzeczą, którą tak naprawdę robi silnik automatycznego różniczkowania (autograd). Zacznijmy od wersji skalarnej: jak zmiana jednego wejścia propaguje się przez zmienną pośrednią na wyjście.
Załóżmy, że z zależy od pośrednich y₁, y₂, …, które zależą od wejść x. Aby znaleźć, jak z zmienia się wraz z jednym wejściem, sumuj wszystkie ścieżki od tego wejścia do wyjścia, mnożąc pochodne na każdej ścieżce:
Każdy termin (∂z/∂yₖ)(∂yₖ/∂xᵢ) to jedna ścieżka; dodaj wszystkie ścieżki. Jeśli jest tylko jedna ścieżka, upraszcza się do znanej reguły łańcuchowej w jednym wymiarze.