ヘッセ行列の幾何

第一原理からの多変数微分積分

ヘッセ行列の固有値は「これはどんな種類の臨界点か?」という曖昧な問いをきれいなチェックリストに変える。勾配がゼロの点で、ヘッセの固有値の符号がボウルの底、ドームの頂、サドルのどれにいるかを教える。

これが多変数の第2微分テストで、1次元の直接の一般化:そこではf″ > 0が最小、f″ が最大を意味した。ヘッセの固有値はその単一の数の多方向版です。

3つのスナックを想像してみてください。スープのボウルはどちらに傾けても上向きに曲がり、アイスクリームのドームはどこでも下向きに曲がり、プリングルスのチップスは長さに沿って上向きに曲がりますが、幅に沿って下向きに曲がります。ヘッセ行列の固有値は、まさにそれらの特別な方向に沿った曲率です。同じ符号はボウルまたはドームを意味し、反対の符号(2 や −2 のように)はチップ、つまりサドル(鞍点)を意味します。

機械学習における位置づけ高次元ではサドル点が局所的最小より圧倒的に多い。n次元のランダムな臨界点で、真の最小や最大になるにはすべてのn個の固有値が同じ符号を共有する必要があり、それは指数的にありそうにない。だから深層ネットの訓練は主にサドルから脱出すること — 勾配が小さいが底からは程遠い場所 — であり、悪い局所的最小に囚われることではない。その再構成が深層学習が機能する理由の大部分。
▶ ヘッセ行列の幾何
← ヘッセ行列連鎖律:スカラー合成 →