Calcolo multivariabile dai primi principi
Raccogli ogni derivata parziale di f in un vettore e ottieni il gradiente, scritto ∇f ("grad f"). Ogni ottimizzatore nel deep learning gira su questo singolo oggetto, quindi si guadagna il posto al centro del corso.
Il gradiente non è solo contabilità. Come vettore nello spazio di input, ha una direzione e una lunghezza, e entrambe portano significato. La direzione è quella di massima salita: orientati lungo ∇f e la funzione sale il più velocemente possibile. La sua lunghezza ‖∇f‖ è esattamente quanto è ripida quella salita.
Immagina di stare in piedi su una collina erbosa nella nebbia. Il gradiente ∇f è la freccia che punta dritto verso l'alto nella parte più ripida della pendenza, e la sua lunghezza ti dice esattamente quanto sia faticosa quella salita. Appoggia una palla e lasciala andare: rotola via esattamente nella direzione opposta, prendendo la via più veloce per scendere.