Нормы — Линейная алгебра · Mathematics for Machine Learning

Геометрия и алгебра линейных отображений, векторов и матриц

Норма отвечает на вопрос «насколько велик этот вектор?» Она измеряет длину. Загвоздка в том, что есть больше одного разумного способа измерять длину, и выбор незаметно влияет на поведение моделей машинного обучения.

По умолчанию — L2-норма (евклидова): прямолинейное расстояние от начала координат до кончика по Пифагору. L1-норма вместо этого суммирует модули координат — «манхэттенское» расстояние, как если бы можно было ехать только по сетке улиц. L∞-норма берёт просто наибольшую по модулю координату.

Представьте, что вы идете через город из одного угла в другой. Расстояние по прямой, как летит ворона, — это норма L2 — то, как полетел бы дрон. Но если улицы заставляют вас двигаться только по сетке, расстояние городских кварталов, которое вы фактически проходите, — это норма L1. Одна и та же поездка, две честные меры «насколько далеко», и маршрут по сетке никогда не бывает короче пути вороны.

Где это встречается в MLНормы и есть регуляризация. L2 weight decay штрафует ‖w‖₂² и мягко тянет каждый вес к нулю, сохраняя модель гладкой. L1-регуляризация штрафует ‖w‖₁ и доводит многие веса ровно до нуля, давая разреженную модель с выбором признаков (углы ромба — вот почему). Норма градиента ‖∇L‖₂ отслеживается при обучении, а «gradient clipping» масштабирует её при чрезмерном росте.