Kritieke punten in Rⁿ

Meervariabelecalculus vanuit eerste principes

Optimalisatie in veel dimensies begint precies daar waar het in 1-D begon: vind waar de helling nul is. Maar nu is 'helling' de hele gradiëntvector, dus een kritiek punt is waar elke partiële afgeleide tegelijk verdwijnt, ∇f = 0.

Dit is noodzakelijk maar niet voldoende: een nul-gradiënt markeert een minimum, een maximum of een zadelpunt. Om ze van elkaar te onderscheiden haal je de Hessiaan erbij en lees je de tekens van haar eigenwaarden af, de tweede-orde-test uit Les 13. De nul-gradiënt lokaliseert de kandidaat; de Hessiaan classificeert hem.

Loop over een heuvelachtige golfbaan en zoek naar de vlakke plekken, de plaatsen waar een bal stil zou blijven liggen. De tee op een heuveltop, de lage green in een holte, en het vlakke zadel langs een heuvelrug zijn allemaal plekken waar de grond tijdelijk in elke richting vlak is. Die vlakheid is ∇f = 0; of je op een piek, in een holte of op een zadel bent, is een aparte vraag die de Hessiaan beantwoordt.

Waar dit voorkomt in MLElke gradiënt-gebaseerde trainingsrun is een zoektocht naar ∇L = 0: de optimizer blijft stappen zetten tot de gradiënt verwaarloosbaar klein is. Vanwege het zadelpuntverhaal (Les 13) is wat hij doorgaans vindt niet 'het' globale minimum, maar een van een enorm aantal vrijwel gelijkwaardige gebieden met lage loss. Dat gradiëntafdaling betrouwbaar in een goed genoeg gebied belandt, is een groot…
▶ Kritieke punten in Rⁿ
← BerekeningsgrafenConvexiteit →