Konvexität

Mehrdimensionale Analysis aus ersten Prinzipien

Manche Optimierungsprobleme sind leicht und manche sind schwer, und eine einzige Eigenschaft zieht die Grenze: die Konvexität. Eine konvexe Funktion hat eine einzige Schalenform ohne falsche Tiefpunkte, sodass das Auffinden einer Stelle mit verschwindendem Gradienten bedeutet, dass du das globale Minimum gefunden hast. Keine Sättel, keine lokalen Fallen.

Das bestimmende Bild: Eine Funktion ist konvex, wenn die gerade Sehne zwischen je zwei Punkten ihres Graphen oberhalb (oder auf) des Graphen selbst liegt. Die Funktion wölbt sich nie über ihre eigenen Abkürzungen hinaus.

Vergleiche eine glatte Salatschüssel mit einem holprigen Eierkarton. Die Schüssel hat einen echten Boden: Wenn man eine Murmel von irgendwoher hineinrollen lässt, setzt sie sich immer am selben tiefsten Punkt ab. Der Eierkarton ist voller kleiner Fallen, jede ein falscher Boden, der die Murmel vor dem tiefsten auffängt. Eine konvexe Funktion ist die Salatschüssel, und dieses einzige garantierte Minimum ist das, was es einfach macht, sie zu optimieren.

Wo das im ML vorkommtDie Spaltung in konvex und nicht-konvex erklärt vieles im ML. Lineare und logistische Regression sind konvex, sodass der Gradientenabstieg beweisbar das globale Optimum erreicht und je zwei Läufe übereinstimmen. Tiefe Netze sind hochgradig nicht-konvex, voller kritischer Punkte, mit Ergebnissen, die sich mit Initialisierung und Zufall verschieben. Diese Lücke ist der Grund, warum klassisches ML…

▶ Konvexität

← Kritische Punkte in Rⁿ Eingeschränkte Optimierung →