連鎖律:スカラー合成

第一原理からの多変数微分積分

バックプロパゲーションを数学にまで削り取るとこのモジュールに辿り着く。多変数連鎖律は関数の合成をどう微分するかを教え、それがautogradエンジンが実際にする唯一のことです。スカラー版から始める:1つの入力の変化が中間変数を通って出力にどう波及するか。

zが中間変数y₁, y₂, …に依存し、それらが入力xに依存するとする。zが1つの入力と共にどう変わるかを求めるには、その入力から出力へのすべての経路にわたって和を取り、各経路に沿って微分を掛ける:

各項(∂z/∂yₖ)(∂yₖ/∂xᵢ)は1つの経路の寄与;すべての経路を足す。経路が1つしかないときはおなじみの1次元連鎖律に縮む。

機械学習における位置づけこの経路にわたる和がまさにネットワークの1ノードを通る後方パスです。各中間yₖはニューロンの活性化;∂z/∂yₖはそれに流れ込む勾配;∂yₖ/∂xᵢはその操作の局所微分。掛けて足すと勾配を1ステップ逆伝播したことになる。グラフ全体でそのステップを繰り返すとモデルを訓練したことになる。
▶ 連鎖律:スカラー合成
← ヘッセ行列の幾何連鎖律:行列形式 →