벡터와 Rⁿ의 기하학 — 미적분학 II · Mathematics for Machine Learning

일변수 미적분은 하나의 직선 위에서 펼쳐졌습니다. 그러나 기계학습은 그렇지 않습니다. 신경망의 가중치, 임베딩, 그래디언트는 각각 고차원 공간의 한 점, 즉 Rⁿ의 원소입니다. 다행히 평면 R²에서 익힌 기하학은 거의 그대로 옮겨집니다. 벡터는 여전히 원점에서 뻗어 나가는 화살표이며, 길이와 각도, «다른 벡터 위로 드리우는 그림자»도 모두 그대로 의미를 가집니다. 다만 더는 눈으로 그릴 수 없을 뿐입니다.

벡터 v = (v₁, v₂, …, vₙ)는 순서가 있는 숫자들의 목록입니다. 이를 두 가지 방식으로 동시에 읽을 수 있습니다. 하나는 위치(도착하는 점)로, 다른 하나는 길이를 가진 방향(그곳에 이르는 화살표)으로 읽는 것입니다. 기계학습에서는 두 가지 해석이 모두 끊임없이 중요하게 쓰입니다.

벡터의 노름(길이)은 피타고라스 정리에서 바로 나오며, 항의 개수만 늘어날 뿐입니다:

머신러닝에서의 위치트랜스포머가 한 토큰이 다른 토큰에 얼마나 주의를 기울일지 결정할 때, 쿼리와 키의 내적 q·k를 계산합니다. 이는 임베딩 공간에서 코사인 유사도로 최근접 이웃의 순위를 매기는 연산과 같으며, 선형 분류기가 어떤 점이 w·x + b = 0의 어느 쪽에 놓이는지 묻는 연산과도 같습니다. 기계학습에서 «유사도»라고 부르는 것의 대부분은 결국 이 하나의 숫자 a·b입니다.