矩阵作为线性映射
线性映射、向量与矩阵的几何与代数
矩阵不只是数字网格。它是一个变换空间的函数:输入一个向量 x,它返回一个新向量 Ax。在整个平面上,它作为一个一致的运动起作用(旋转、拉伸、反射、剪切、投影),同时作用于每个点。
它之所以线性,是因为它尊重两个向量运算:A(x + y) = Ax + Ay 和 A(cx) = c·Ax。直线仍然变成直线,原点保持不动,等距网格会映射为等距(可能倾斜)的网格。
用眼睛读矩阵的方法是:它的列就是基向量落到哪里。第一列是 [1, 0] 的像;第二列是 [0, 1] 的像。一旦知道两条坐标轴去了哪里,整个变换就确定了,因为其他每个向量都是它们的组合。
在机器学习中的应用神经网络的权重矩阵 W 正是这个东西:一个线性映射,在非线性作用之前重新塑造激活空间。每一层都会把输入旋转、拉伸、投影到一个新的坐标系中,让下一层的任务更容易。“学习一个层”意味着学习把坐标轴送到哪里,也就是学习 W 的列。
▶ 矩阵作为线性映射