Одномерное исчисление жило на прямой. Машинное обучение — нет. Веса нейросети, эмбеддинг, градиент: каждый — точка в многомерном пространстве, Rⁿ. Хорошая новость: геометрия, которую вы знаете с плоскости R², переносится почти дословно. Вектор — всё ещё стрелка из начала; длина, угол и «тень на другой вектор» имеют смысл. Просто перестаёшь мочь нарисовать.
Вектор v = (v₁, v₂, …, vₙ) — упорядоченный список чисел. Можно читать двояко: как положение (точка, куда попадаешь) и как направление с длиной (стрелка, ведущая туда). Оба чтения важны в ML постоянно.
Норма (длина) вектора — прямо от Пифагора, просто больше слагаемых:
Где это встречается в MLКогда трансформер решает, насколько один токен должен уделять внимание другому, он берёт скалярное произведение запроса и ключа, q·k. Это та же операция, что ранжирование ближайших соседей в пространстве эмбеддингов по косинусному сходству, и та же, что линейный классификатор использует, спрашивая, на какой стороне w·x + b = 0 лежит точка. Большая часть того, что в ML называют «сходством», — это…