Macierz Jacobiego

Analiza wielowymiarowa od pierwszych zasad

Kiedy wynikiem jest również wektor (w przypadku funkcji f: Rⁿ → Rᵐ), pojedyncza pochodna to za mało. Potrzebujesz pochodnej cząstkowej dla każdej składowej wyjściowej po każdej zmiennej wejściowej. Zebranie ich wszystkich w macierz daje macierz Jacobiego J, stanowiącą pełną pierwszą pochodną przekształcenia wektorowego.

Wiersz i-ty macierzy J to po prostu gradient wyjścia i-tego. Innymi słowy, macierz Jacobiego to zestaw gradientów (po jednym dla każdej składowej wyjściowej) ułożonych w stos. Jej wymiary to m × n: tyle wierszy, ile jest wyjść, i tyle kolumn, ile jest wejść.

Pomyśl o stole mikserskim inżyniera dźwięku, gdzie każdy kanał wyjściowy reaguje na każde pokrętło wejściowe. Jakobian to ta tabela czułości w formie pisemnej: każda pozycja mówi, o ile przesuwa się jedno wyjście, gdy delikatnie przesuniesz jedno pokrętło wejściowe. Czytaj wzdłuż wiersza, aby zobaczyć wszystko, co steruje jednym wyjściem; czytaj w dół kolumny, aby zobaczyć wszystko, co kontroluje jedno pokrętło.

Gdzie to występuje w MLMacierz Jacobiego warstwy sieci informuje, jak drobne zaburzenie jej wejścia wpłynie na jej wyjście, obrazując lokalne efekty rozciągania i ściskania realizowane przez tę warstwę. Propagacja wsteczna (backpropagation) to zasadniczo łańcuchowe mnożenie macierzy Jacobiego wszystkich warstw (o czym powiemy w następnym module). Gdy słyszysz o problemie zanikających lub eksplodujących gradientów, mowa…
▶ Macierz Jacobiego
← Aproksymacja liniowaGeometria Jacobianowa →