De gradiënt

Meervariabelecalculus vanuit eerste principes

Verzamel elke partiële afgeleide van f in één vector en je krijgt de gradiënt, geschreven als ∇f ("grad f"). Elke optimizer in deep learning draait op dit ene object, dus het verdient zijn plaats in het hart van de cursus.

De gradiënt is niet alleen boekhouding. Als vector in de inputruimte heeft hij een richting en een lengte, en beide hebben betekenis. De richting is die van de steilste stijging: richt jezelf langs ∇f en de functie klimt zo snel als maar mogelijk is. De lengte ‖∇f‖ is precies hoe steil die klim is.

Stel je voor dat je op een grasrijke heuvel in de mist staat. De gradiënt ∇f is de pijl die recht omhoog wijst naar het steilste deel van de helling, en zijn lengte vertelt je precies hoe slopend die klim is. Leg een bal neer en laat los: hij rolt in precies de tegenovergestelde richting weg, en neemt de snelste weg naar beneden.

Waar dit voorkomt in MLStaand op het verliesoppervlak wil je zo snel mogelijk bergafwaarts stappen. De gradiënt ∇L wijst naar de steilste toename, dus je trekt hem af: w ← w − η∇L, de update achter SGD, Adam en elke andere optimizer. Backpropagation bestaat om één reden: deze vector efficiënt te berekenen.
▶ De gradiënt
← Hogere-orde partiële afgeleidenRichtingsafgeleide →