ベクトルとRⁿの幾何

第一原理からの多変数微分積分

1変数の微分積分は直線上にあった。機械学習はそうではない。ニューラルネットワークの重み、埋め込み、勾配:それぞれが高次元空間Rⁿの1点です。良い知らせは、平面R²で知っている幾何がほぼそのまま当てはまることです。ベクトルはやはり原点からの矢印;長さ、角度、「他のベクトルへの影」はすべて意味を持ちます。描けなくなるだけです。

ベクトルv = (v₁, v₂, …, vₙ)は順序付きの数のリストです。2つの読み方が同時にできる:位置(到着する点)と長さを持つ方向(そこに行く矢印)。両方の読み方がMLで常に重要です。

ベクトルのノルム(長さ)はピタゴラスから直接来る、項が増えただけ:

機械学習における位置づけTransformerがあるトークンが別のトークンにどれだけ注意を払うべきかを決めるとき、クエリとキーの内積q·kを取る。それは埋め込み空間でコサイン類似度により最近傍をランク付けするのと同じ操作で、線形分類器が点がw·x + b = 0のどちら側に着地するかを問うのと同じです。MLで「類似度」と呼ばれるもののほとんどはこの単一の数a·bです。
▶ ベクトルとRⁿの幾何
← 二次形式関数 f: Rⁿ → R →