Anteprima della Discesa del Gradiente

Calcolo a una variabile dai primi principi

Supponi di voler raggiungere il punto più basso di una curva, ma di poter vedere solo il terreno proprio sotto i tuoi piedi — percepisci la pendenza, nient'altro. Cosa fai? Semplice: fai un passo in direzione della discesa, poi percepisci di nuovo la pendenza, poi fai un altro passo. E ripeti. Questa è la discesa del gradiente, l'algoritmo che addestra praticamente ogni modello di IA moderno.

Immagina di camminare in discesa in una nebbia fitta così densa che non riesci a vedere un passo avanti a te. Non riesci a individuare il fondo della valle, ma puoi comunque sentire con il piede in che direzione il terreno scende, e fare un passo in quella direzione. Senti, passo, senti, passo. La discesa del gradiente è esattamente questo cieco e paziente strascico verso il terreno più basso.

Scritta come regola che aggiorna la tua posizione ad ogni passo:

Dove si trova nel MLQuesta singola riga è il cuore di ogni ottimizzatore nel deep learning. L'aggiornamento dei pesi è identico nello spirito: w ← w − η∇L, dove ∇L è semplicemente la derivata multidimensionale (il gradiente) del prossimo corso. SGD, Adam, RMSProp e gli altri sono tutti perfezionamenti di questo scheletro — passi più intelligenti, momentum, tassi per ogni parametro — ma l'ossatura è esattamente la…

▶ Anteprima della Discesa del Gradiente

← Convessità Protocollo Sistematico di Schizzo →