向量与 Rⁿ 的几何

从第一性原理出发的多变量微积分

单变量微积分生活在一条直线上。机器学习不是。神经网络的权重、一个嵌入向量、一个梯度：每一个都是高维空间中的点，即 Rⁿ。好消息是，你从平面 R² 中熟悉的几何几乎可以逐字推广。向量仍然是从原点出发的箭头；长度、角度和“投到另一个向量上的影子”仍然有意义。只是我们没法再把它画出来。

向量 v = (v₁, v₂, …, vₙ) 是一个有序数字列表。你可以同时用两种方式理解它：作为一个位置（你到达的点），也作为一个有长度的方向（把你带到那里的箭头）。这两种理解在机器学习中都经常出现。

向量的范数（长度）直接来自勾股定理，只是项更多：

在机器学习中的应用当 transformer 决定一个 token 应该多大程度关注另一个 token 时，它计算 query 和 key 的点积 q·k。这和在嵌入空间里按余弦相似度排序最近邻是同一个操作，也和线性分类器判断一个点落在 w·x + b = 0 哪一侧是同一个操作。机器学习里很多所谓“相似度”，本质上都是这个单个数字 a·b。

▶ 向量与 Rⁿ 的几何

← 二次型函数 f: Rⁿ → R →