関数 f: Rⁿ → R

第一原理からの多変数微分積分

関数f: Rⁿ → Rはベクトルを入力として受け取り単一の数を返します。機械学習を駆動する例は損失です:ネットワークのすべての重みを入力し、どれだけひどくやっているかを示す1つの数を得る。訓練の全体がこの関数の最低点を探す旅です。

2つの入力なら実際に想像できます:z = f(x, y)は曲面で、xy平面の上に浮かぶ丘と谷の地形です。各(x, y)での高さが関数の値です。

部屋の中の空気を想像してみてください。どこに立っても、温度計は正確に1つの温度を示します。これは、偽装された関数 f: R² → R です。位置 (x, y) を入力すると、1つの数値(そこの暖かさ)が出力されます。部屋全体が暖かかったり冷たかったりする風景になり、ラジエーターの近くでは高く、窓のそばでは低くなります。

機械学習における位置づけ訓練中に損失曲線が下がっていくのを見るとき、これらの曲面の1つの上を歩いている。損失L(w₁, …, wₙ)は重み空間上の関数Rⁿ → Rで、nは数百万や数十億、画面上の曲線はその歩みの1次元の影にすぎない。研究者が議論する「平らな vs 鋭い最小値」の絵は文字通りこの同じfのコンターと曲面プロットです。
▶ 関数 f: Rⁿ → R
← ベクトルとRⁿの幾何関数 f: Rⁿ → Rᵐ →