Il Gradiente

Calcolo multivariabile dai primi principi

Raccogli ogni derivata parziale di f in un vettore e ottieni il gradiente, scritto ∇f ("grad f"). Ogni ottimizzatore nel deep learning gira su questo singolo oggetto, quindi si guadagna il posto al centro del corso.

Il gradiente non è solo contabilità. Come vettore nello spazio di input, ha una direzione e una lunghezza, e entrambe portano significato. La direzione è quella di massima salita: orientati lungo ∇f e la funzione sale il più velocemente possibile. La sua lunghezza ‖∇f‖ è esattamente quanto è ripida quella salita.

Immagina di stare in piedi su una collina erbosa nella nebbia. Il gradiente ∇f è la freccia che punta dritto verso l'alto nella parte più ripida della pendenza, e la sua lunghezza ti dice esattamente quanto sia faticosa quella salita. Appoggia una palla e lasciala andare: rotola via esattamente nella direzione opposta, prendendo la via più veloce per scendere.

Dove si trova nel MLSulla superficie di loss, vuoi fare un passo in discesa il più velocemente possibile. Il gradiente ∇L punta verso il più veloce aumento, quindi lo sottrai: w ← w − η∇L, l'aggiornamento dietro SGD, Adam, e ogni altro ottimizzatore. La backpropagation esiste per un solo motivo, per calcolare questo vettore efficientemente.

▶ Il Gradiente

← Derivate Parziali di Ordine Superiore Derivata Direzionale →