函数 f: Rⁿ → R

从第一性原理出发的多变量微积分

函数 f: Rⁿ → R 接收一个向量，返回一个数字。机器学习中最典型的例子是损失函数：把网络的所有权重输入进去，得到一个数字，表示模型做得有多差。整个训练过程就是寻找这个函数最低点的过程。

对两个输入来说，你真的可以把它想象出来：z = f(x, y) 是一个曲面，是浮在 xy 平面上方的山谷地形。每个 (x, y) 处的高度就是函数值。

想象一下房间里的空气：站在任何一个点上，温度计都会读出确切的唯一温度。这就是一个被伪装起来的函数 f: R² → R：输入一个位置 (x, y)，输出一个数字（那里的温暖程度）。整个房间变成了一幅包含温暖和凉爽区域的地貌图，在暖气片附近较高，在窗户旁边较低。

在机器学习中的应用当你看到训练时损失曲线不断下降，你看到的是在这些曲面上的一次行走。损失 L(w₁, …, wₙ) 是定义在权重空间上的函数 Rⁿ → R，其中 n 可以是几百万或几十亿；屏幕上的曲线只是这次行走的一维影子。研究人员争论的“平坦极小值 vs 尖锐极小值”图像，本质上就是同一个 f 的等高线图和曲面图。

▶ 函数 f: Rⁿ → R

← 向量与 Rⁿ 的几何函数 f: Rⁿ → Rᵐ →