Reguła łańcuchowa: Postać macierzowa

Analiza wielowymiarowa od pierwszych zasad

Wzór na sumę po ścieżkach to tak naprawdę mnożenie macierzy zapisane wyraz po wyrazie. Gdy funkcje są wektorowe, reguła łańcuchowa zwija się w elegancki iloczyn jakobianów, i to jest postać, która faktycznie napędza prawdziwe systemy automatycznego różniczkowania (autograd).

Dla kompozycji f ∘ g jakobian całości to jakobian funkcji zewnętrznej (obliczony na wyjściu funkcji wewnętrznej) razy jakobian funkcji wewnętrznej:

Sprawdzenie wymiarów to to, co sprawia, że wszystko działa. Jeśli g: Rⁿ → Rᵏ i f: Rᵏ → Rᵐ, to J_g ma wymiary k×n, J_f ma m×k, a ich iloczyn ma m×n – dokładnie taki wymiar, jakiego wymaga całościowe odwzorowanie Rⁿ → Rᵐ. Wymiar wewnętrzny k się skraca, tak jak przy zwykłym mnożeniu macierzy.

Gdzie to występuje w MLTen iloczyn to dlaczego sieci głębokie cierpią na zanikające i wybuchające gradienty. Pomnóż wiele jakobianów, których wartości osobliwe są poniżej 1, a iloczyn kurczy się do zera; niech będą powyżej 1, a rośnie bez ograniczeń. Połączenia residualne, staranna inicjalizacja i normalizacja wszystkie istnieją, by utrzymać ten iloczyn jakobianów w zdrowej skali, żeby gradienty przetrwały drogę wstecz…
▶ Reguła łańcuchowa: Postać macierzowa
← Reguła łańcuchowa: Skalarna kompozycjaGrafy obliczeń →