线性映射、向量与矩阵的几何与代数
范数回答“这个向量有多大?”它衡量长度。问题在于,合理的长度度量不止一种,而这种选择会悄悄影响机器学习模型的行为。
默认选择是 L2(欧几里得)范数:从原点到尖端的直线距离,由勾股定理给出。L1 范数则把坐标绝对值相加,也叫“出租车”距离,好像你只能沿网格街道行走。L∞ 范数只取最大的那个坐标绝对值。
想象从城镇的一个角落步行到另一个角落。像乌鸦飞过一样的直线距离是 L2 范数 — 也就是无人机会飞行的路线。但是,如果街道迫使你只能沿着网格行进,你实际走过的街区距离就是 L1 范数。同一趟行程,衡量“有多远”的两种诚实标准,而且网格路线永远不会比乌鸦飞的直线路线更短。