Richtingsafgeleide

Meervariabelecalculus vanuit eerste principes

Partiële afgeleiden vertellen je alleen de helling langs de coördinaatassen, maar je kunt in elke richting weglopen. De richtingsafgeleide D_u f beantwoordt: als ik langs de eenheidsvector u stap, hoe snel verandert f dan? Het antwoord blijkt een enkel inproduct met de gradiënt te zijn.

Stel je voor dat je over diezelfde heuvel wandelt, maar in plaats van recht bergopwaarts te kijken, kies je een kompasrichting, zeg noordoost, en loopt die kant op. De richtingsafgeleide D_u f is de helling die je werkelijk onder je wandelschoenen voelt langs die koers. Ga in de steilste richting en je voelt de volledige klim; draai zijwaarts langs de heuvelrug en de grond voelt vlak aan.

Aangezien D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (omdat u een eenheidsvector is), is de veranderingssnelheid het grootst precies wanneer cos θ = 1, dat wil zeggen wanneer u langs ∇f wijst. Draai de richtingspijl hieronder en zie hoe de hellingsuitlezing piekt wanneer hij uitlijnt met de gradiënt en verdwijnt wanneer hij er loodrecht op staat.

Waar dit voorkomt in MLDit is de stelling die gradiëntafdaling rechtvaardigt. Onder alle richtingen waarin je zou kunnen stappen, verlaagt −∇L aantoonbaar het verlies het snelst. Dus als je je ooit afvraagt waarom trainingsstappen langs de gradiënt gaan in plaats van een andere richting, dan is dit het antwoord: de gradiënt is de beste lokale keuze, en daarom is w ← w − η∇L de universele update.
▶ Richtingsafgeleide
← De gradiëntLineaire benadering →