向量与 Rⁿ 的几何
从第一性原理出发的多变量微积分
单变量微积分生活在一条直线上。机器学习不是。神经网络的权重、一个嵌入向量、一个梯度:每一个都是高维空间中的点,即 Rⁿ。好消息是,你从平面 R² 中熟悉的几何几乎可以逐字推广。向量仍然是从原点出发的箭头;长度、角度和“投到另一个向量上的影子”仍然有意义。只是我们没法再把它画出来。
向量 v = (v₁, v₂, …, vₙ) 是一个有序数字列表。你可以同时用两种方式理解它:作为一个位置(你到达的点),也作为一个有长度的方向(把你带到那里的箭头)。这两种理解在机器学习中都经常出现。
向量的范数(长度)直接来自勾股定理,只是项更多:
在机器学习中的应用当 transformer 决定一个 token 应该多大程度关注另一个 token 时,它计算 query 和 key 的点积 q·k。这和在嵌入空间里按余弦相似度排序最近邻是同一个操作,也和线性分类器判断一个点落在 w·x + b = 0 哪一侧是同一个操作。机器学习里很多所谓“相似度”,本质上都是这个单个数字 a·b。
▶ 向量与 Rⁿ 的几何