Wektory i geometria Rⁿ

Analiza wielowymiarowa od pierwszych zasad

Rachunek różniczkowy jednej zmiennej ograniczał się do prostej. Uczenie maszynowe działa inaczej. Wagi sieci neuronowej, zanurzenia (embeddings), gradienty: wszystko to są punkty w przestrzeni wielowymiarowej Rⁿ. Dobra wiadomość jest taka, że geometria, którą znasz z dwuwymiarowej płaszczyzny R², przenosi się na nie niemal jeden do jednego. Wektor wciąż jest strzałką wychodzącą z początku układu współrzędnych; jego długość, kąt i „cień rzucony na inny wektor” nadal mają sens. Po prostu tracimy możliwość narysowania tego.

Wektor v = (v₁, v₂, …, vₙ) to uporządkowana lista liczb. Możesz odczytać go na dwa sposoby jednocześnie: jako położenie (punkt, w którym lądujesz) i jako kierunek wraz z długością (strzałkę, która cię tam doprowadza). Obie te interpretacje nieustannie przewijają się w ML.

Norma (długość) wektora bierze się wprost z twierdzenia Pitagorasa, tylko z większą liczbą wyrazów:

Gdzie to występuje w MLGdy transformer decyduje, jak bardzo jeden token powinien zwrócić uwagę na inny, oblicza iloczyn skalarny zapytania (query) i klucza (key), q·k. To dokładnie ta sama operacja, co porządkowanie najbliższych sąsiadów w przestrzeni zanurzeń według podobieństwa kosinusowego, i ta sama, której używa klasyfikator liniowy, sprawdzając, po której stronie hiperpowierzchni w·x + b = 0 ląduje punkt.…

▶ Wektory i geometria Rⁿ

← Formy kwadratowe Funkcje f: Rⁿ → R →