Геометрия и алгебра линейных отображений, векторов и матриц
Норма отвечает на вопрос «насколько велик этот вектор?» Она измеряет длину. Загвоздка в том, что есть больше одного разумного способа измерять длину, и выбор незаметно влияет на поведение моделей машинного обучения.
По умолчанию — L2-норма (евклидова): прямолинейное расстояние от начала координат до кончика по Пифагору. L1-норма вместо этого суммирует модули координат — «манхэттенское» расстояние, как если бы можно было ехать только по сетке улиц. L∞-норма берёт просто наибольшую по модулю координату.
Представьте, что вы идете через город из одного угла в другой. Расстояние по прямой, как летит ворона, — это норма L2 — то, как полетел бы дрон. Но если улицы заставляют вас двигаться только по сетке, расстояние городских кварталов, которое вы фактически проходите, — это норма L1. Одна и та же поездка, две честные меры «насколько далеко», и маршрут по сетке никогда не бывает короче пути вороны.