Convexiteit

Meervariabelecalculus vanuit eerste principes

Sommige optimalisatieproblemen zijn makkelijk en sommige zijn moeilijk, en één eigenschap trekt de grens: convexiteit. Een convexe functie heeft één enkele komvorm zonder valse bodems, dus een plek vinden waar de gradiënt nul is, betekent dat je het globale minimum hebt gevonden. Geen zadelpunten, geen lokale vallen.

Het bepalende beeld: een functie is convex als de rechte koorde tussen twee willekeurige punten op haar grafiek boven (of op) de grafiek zelf ligt. De functie puilt nooit boven haar eigen snelweggetjes uit.

Vergelijk een gladde slakom met een bobbelige eierdoos. De kom heeft één echte bodem: rol er ergens een knikker in en hij komt altijd op hetzelfde lage punt tot rust. De eierdoos zit vol kleine valstrikken, elk een valse bodem die de knikker opvangt nog voor de laagste is bereikt. Een convexe functie is de slakom, en dat ene gegarandeerde minimum is wat het eenvoudig te optimaliseren maakt.

Waar dit voorkomt in MLDe convex/niet-convex-tweedeling verklaart veel van ML. Lineaire en logistische regressie zijn convex, dus gradiëntafdaling bereikt aantoonbaar het globale optimum en twee willekeurige runs komen overeen. Diepe netwerken zijn enorm niet-convex, vol kritieke punten, met resultaten die verschuiven met initialisatie en willekeur. Die kloof is waarom klassieke ML betrouwbaar aanvoelt en deep learning…
▶ Convexiteit
← Kritieke punten in RⁿOptimalisatie met Randvoorwaarden →