Reguła łańcuchowa: Skalarna kompozycja

Analiza wielowymiarowa od pierwszych zasad

Zdekomponuj propagację wsteczną (backpropagation) do samej matematyki, a znajdziesz ten moduł. Wielowymiarowa reguła łańcuchowa mówi o tym, jak różniczkować złożenie funkcji, co jest jedyną rzeczą, którą tak naprawdę robi silnik automatycznego różniczkowania (autograd). Zacznijmy od wersji skalarnej: jak zmiana jednego wejścia propaguje się przez zmienną pośrednią na wyjście.

Załóżmy, że z zależy od pośrednich y₁, y₂, …, które zależą od wejść x. Aby znaleźć, jak z zmienia się wraz z jednym wejściem, sumuj wszystkie ścieżki od tego wejścia do wyjścia, mnożąc pochodne na każdej ścieżce:

Każdy termin (∂z/∂yₖ)(∂yₖ/∂xᵢ) to jedna ścieżka; dodaj wszystkie ścieżki. Jeśli jest tylko jedna ścieżka, upraszcza się do znanej reguły łańcuchowej w jednym wymiarze.

Gdzie to występuje w MLTa suma po ścieżkach to dokładnie przebieg wsteczny (backward pass) przez jeden węzeł sieci. Każda zmienna pośrednia yₖ to aktywacja neuronu; ∂z/∂yₖ to gradient wracający do niego; ∂yₖ/∂xᵢ to lokalna pochodna tej operacji. Pomnóż i zsumuj, a przeniesiesz gradient o jeden krok wstecz. Powtarzaj ten proces dla całego drzewa, a wytrenujesz model.
▶ Reguła łańcuchowa: Skalarna kompozycja
← Geometria hesjanuReguła łańcuchowa: Postać macierzowa →