Derivata Direzionale

Calcolo multivariabile dai primi principi

Le derivate parziali ti dicono solo la pendenza lungo gli assi coordinati, ma puoi camminare in qualsiasi direzione. La derivata direzionale D_u f risponde: se faccio un passo lungo il vettore unitario u, quanto velocemente cambia f? La risposta risulta essere un singolo prodotto scalare con il gradiente.

Immagina di fare un'escursione su quella stessa collina, ma invece di guardare dritto verso l'alto scegli una direzione sulla bussola, ad esempio nord-est, e cammini in quel verso. La derivata direzionale D_u f è la pendenza che senti effettivamente sotto gli scarponi lungo quella rotta. Dirigiti verso la direzione più ripida e sentirai tutta la salita; girati lateralmente lungo il fianco della collina e il terreno sembrerà piatto.

Poiché D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (perché u è un vettore unitario), il tasso di cambiamento è massimo esattamente quando cos θ = 1, cioè quando u punta lungo ∇f. Ruota la freccia di direzione sotto e guarda la pendenza raggiungere il picco quando si allinea con il gradiente e azzerarsi quando è perpendicolare.

Dove si trova nel MLQuesto è il teorema che giustifica la discesa del gradiente. Tra tutte le direzioni in cui potresti fare un passo, −∇L provabilmente diminuisce la loss più velocemente. Quindi se ti chiedi mai perché l'addestramento fa passi lungo il gradiente anziché un'altra direzione, questa è la risposta: il gradiente è la migliore scelta locale, ecco perché w ← w − η∇L è l'aggiornamento universale.
▶ Derivata Direzionale
← Il GradienteApprossimazione Lineare →