Die Jacobi-Matrix

Mehrdimensionale Analysis aus ersten Prinzipien

Wenn auch die Ausgabe ein Vektor ist, also eine Funktion f: Rⁿ → Rᵐ, reicht ein einzelner Gradient nicht aus. Du brauchst die partielle Ableitung jeder Ausgabe nach jeder Eingabe. Stelle sie alle in einer Matrix zusammen, und du erhältst die Jacobi-Matrix J, die vollständige erste Ableitung einer vektorwertigen Abbildung.

Zeile i von J ist einfach der Gradient der i-ten Ausgabe. Die Jacobi-Matrix ist also ein Stapel von Gradienten, einer pro Ausgabekoordinate. Ihre Form ist m × n: so viele Zeilen wie Ausgaben und so viele Spalten wie Eingaben.

Stell dir das Mischpult eines Toningenieurs vor, bei dem jeder Ausgabekanal auf jeden Eingaberegler reagiert. Die Jacobi-Matrix ist diese ausgeschriebene Empfindlichkeitstabelle: Jeder Eintrag besagt, wie sehr sich eine Ausgabe bewegt, wenn man einen Eingaberegler antippt. Lies quer über eine Zeile, um alles zu sehen, was eine einzelne Ausgabe antreibt; lies eine Spalte hinab, um alles zu sehen, was ein Regler steuert.

Wo das im ML vorkommtDie Jacobi-Matrix einer Schicht sagt aus, wie eine kleine Störung ihrer Eingabe ihre Ausgabe verändert, das lokale Strecken und Stauchen dieser Schicht. Backpropagation ist nur die Multiplikation dieser schichtweisen Jacobi-Matrizen (nächstes Modul). Wenn man sich um verschwindende oder explodierende Gradienten sorgt, sorgt man sich um eben dieses Produkt von Schicht-Jacobi-Matrizen, das entweder…
▶ Die Jacobi-Matrix
← Lineare ApproximationJacobische Geometrie →