連鎖律:行列形式

第一原理からの多変数微分積分

経路にわたる和の公式は実は項ごとに書き出した行列の積です。関数がベクトル値のとき、連鎖律はヤコビアンのきれいな積に縮み、これが実際のautogradシステムを駆動する形式です。

合成f ∘ gについて、全体のヤコビアンは外側の写像のヤコビアン(内側の出力で評価)に内側の写像のヤコビアンを掛けたもの:

形のチェックがわかる鍵です。g: Rⁿ → Rᵏとf: Rᵏ → Rᵐなら、J_gはk×n、J_fはm×k、積はm×nで、全体の写像Rⁿ → Rᵐが要求する形にちょうど一致する。内側の次元kが消え、通常の行列の積と同じ。

機械学習における位置づけこの積が深層ネットが勾配の消失と爆発に苦しむ理由です。特異値が1未満のヤコビアンを多数掛けると積はゼロに向かって縮む;1より大きいと爆発する。残差接続、慎重な初期化、正規化はすべてこのヤコビアンの積を健全なスケールの近くに保つために存在し、勾配が多くの層を通って戻る旅を生き延びるようにする。
▶ 連鎖律:行列形式
← 連鎖律:スカラー合成計算グラフ →