函数 f: Rⁿ → R

从第一性原理出发的多变量微积分

函数 f: Rⁿ → R 接收一个向量,返回一个数字。机器学习中最典型的例子是损失函数:把网络的所有权重输入进去,得到一个数字,表示模型做得有多差。整个训练过程就是寻找这个函数最低点的过程。

对两个输入来说,你真的可以把它想象出来:z = f(x, y) 是一个曲面,是浮在 xy 平面上方的山谷地形。每个 (x, y) 处的高度就是函数值。

想象一下房间里的空气:站在任何一个点上,温度计都会读出确切的唯一温度。这就是一个被伪装起来的函数 f: R² → R:输入一个位置 (x, y),输出一个数字(那里的温暖程度)。整个房间变成了一幅包含温暖和凉爽区域的地貌图,在暖气片附近较高,在窗户旁边较低。

在机器学习中的应用当你看到训练时损失曲线不断下降,你看到的是在这些曲面上的一次行走。损失 L(w₁, …, wₙ) 是定义在权重空间上的函数 Rⁿ → R,其中 n 可以是几百万或几十亿;屏幕上的曲线只是这次行走的一维影子。研究人员争论的“平坦极小值 vs 尖锐极小值”图像,本质上就是同一个 f 的等高线图和曲面图。
▶ 函数 f: Rⁿ → R
← 向量与 Rⁿ 的几何函数 f: Rⁿ → Rᵐ →