多変数テイラー

第一原理からの多変数微分積分

線形近似(レッスン9)は勾配だけを使い平らな接平面を与えた。ヘッセ行列から構築される次の項を加えると、2次近似が得られる:曲面に密着し、傾きだけでなく曲率も捉える放物面です。

3つの部分を読む:f(x)は高さ、∇fᵀδは1次(傾き)補正、½δᵀHδは2次(曲率)補正。最後の項はステップの2次形式で、まさにヘッセの固有値が符号を制御する対象です。

曲面の上に乗っている平らな接平面は、目に硬いガラスのスライドを置くようなものです。1点では接しますが、他の場所では隙間ができます。コンタクトレンズの方が優れているのは、それが目の表面に合わせて曲がっており、目がある場所だけでなく、それがどのように曲がっているかにも一致しているからです。ヘッセ行列の項 ½δᵀHδ はその組み込みの曲率です。単に乗るだけではなく、近似が表面にぴったりと寄り添うことを可能にします。

機械学習における位置づけ1度に小さな勾配ステップで少しずつ下る代わりに、損失に放物面を当てはめてその底に直接跳べる。それがニュートン法:局所2次式を正確に最小化し、δ = −H⁻¹∇fでステップし、曲率が大きく変わるとき単純な勾配降下よりはるかに速く収束する。Adamなどは同じ曲率補正を完全な(巨大な)ヘッセを形成せずにパラメータごとに安く追う。
▶ 多変数テイラー
← 制約付き最適化2重積分 →