第一原理からの多変数微分積分
fのすべての偏微分を1つのベクトルに集めると勾配が得られ、∇f(「グラッドf」)と書く。深層学習のすべての最適化器がこの1つの対象で動くので、コースの中心に値する。
勾配は単なる簿記ではない。入力空間のベクトルとして、方向と長さを持ち、両方が意味を持つ。方向は最急上昇の方向:∇fに沿って向くと関数が可能な限り速く登る。その長さ‖∇f‖がその登りの急さです。
霧の中の草に覆われた丘に立っている自分を想像してみてください。勾配 ∇f は、傾斜の最も急な部分をまっすぐ上に向いて指す矢印であり、その長さは、その登りがどれほど過酷であるかを教えてくれます。ボールを置いて手を離します。ボールは正確に反対方向に転がり落ち、最も速く下る道を進みます。