Matrixmultiplikation

Geometrie und Algebra von linearen Abbildungen, Vektoren und Matrizen

Die Matrixmultiplikation wirkt wie eine umständliche Regel, aber ihre Bedeutung ist klar: AB ist die Verkettung zweier Transformationen. Führe zuerst B aus, dann A. Das Produkt ist die einzige Matrix, die beide Bewegungen in einem Schritt ausführt.

Um einen Eintrag von AB zu berechnen, nimmt man eine Zeile von A und bildet das Skalarprodukt mit einer Spalte von B. Der Eintrag (i, j) ist das Skalarprodukt von Zeile i von A mit Spalte j von B. Das ist das gesamte Verfahren: Skalarprodukte, angeordnet in einem Gitter.

Stell dir zwei Maschinen an einem Fließband vor. Die erste Maschine B formt ein Teil um, dann formt die zweite Maschine A es noch einmal um. Das Produkt AB ist die einzelne kombinierte Maschine, die beide Schritte in einem Durchgang erledigt — und die Reihenfolge auf der Linie ist fest, da das Teil durch B muss, bevor es zu A kommt.

Wo das im ML vorkommtDas Verketten von Schichten ist Matrixmultiplikation. Ein zweischichtiger linearer Stapel W₂(W₁x) ist gleich (W₂W₁)x; die Schichten verschmelzen zu einer einzigen Abbildung. Beim Attention-Mechanismus kommen die Scores aus einem Produkt QKᵀ und die Ausgabe aus der Multiplikation dieser Gewichte mit V. Jeder Vorwärtsdurchlauf ist eine Kette solcher Produkte, und die Formregel ist genau das, wofür…
▶ Matrixmultiplikation
← Matrizen als lineare AbbildungenTransponieren →