Meervariabelecalculus vanuit eerste principes
Verzamel elke partiële afgeleide van f in één vector en je krijgt de gradiënt, geschreven als ∇f ("grad f"). Elke optimizer in deep learning draait op dit ene object, dus het verdient zijn plaats in het hart van de cursus.
De gradiënt is niet alleen boekhouding. Als vector in de inputruimte heeft hij een richting en een lengte, en beide hebben betekenis. De richting is die van de steilste stijging: richt jezelf langs ∇f en de functie klimt zo snel als maar mogelijk is. De lengte ‖∇f‖ is precies hoe steil die klim is.
Stel je voor dat je op een grasrijke heuvel in de mist staat. De gradiënt ∇f is de pijl die recht omhoog wijst naar het steilste deel van de helling, en zijn lengte vertelt je precies hoe slopend die klim is. Leg een bal neer en laat los: hij rolt in precies de tegenovergestelde richting weg, en neemt de snelste weg naar beneden.