矩阵乘法

线性映射、向量与矩阵的几何与代数

矩阵乘法看起来像一个繁琐规则,但它的含义很清楚:AB 是两个变换的复合。先做 B,再做 A。乘积就是一个一次完成两种运动的矩阵。

要计算 AB 的一个元素,就取 A 的一行与 B 的一列做点积。位置 (i, j) 的元素是 A 的第 i 行与 B 的第 j 列的点积。整个算法就是:把点积排成一个网格。

想象工厂流水线上的两台机器。第一台机器 B 对零件进行重新成型,然后第二台机器 A 再次对其重新成型。乘积 AB 就是一次性完成这两个步骤的单一组合机器 — 并且流水线上的顺序是固定的,因为零件必须先经过 B 然后才能经过 A。

在机器学习中的应用层的复合就是矩阵乘法。两层线性堆叠 W₂(W₁x) 等于 (W₂W₁)x;这些层会合并成一个映射。在注意力中,分数来自乘积 QKᵀ,输出来自把这些权重乘以 V。每次前向传播都是这些乘积的链条,而形状规则正是 GPU 被设计来快速处理的东西。
▶ 矩阵乘法
← 矩阵作为线性映射转置 →