Punti Critici in Rⁿ

Calcolo multivariabile dai primi principi

L'ottimizzazione in molte dimensioni comincia esattamente dove faceva in 1-D: trova dove la pendenza è zero. Ma ora 'pendenza' è l'intero vettore gradiente, quindi un punto critico è dove ogni derivata parziale si annulla contemporaneamente, ∇f = 0.

Questo è necessario ma non sufficiente: un gradiente zero segna un minimo, un massimo, o una sella. Per distinguerli si ricorre alla Hessiana e si leggono i segni dei suoi autovalori: è il test del secondo ordine della Lezione 13. Il gradiente zero localizza il candidato; la Hessiana lo classifica.

Cammina su un campo da golf collinare e cerca i punti pianeggianti, i posti dove una palla starebbe ferma. Il tee su una collina, il green basso in un avvallamento e la sella piatta lungo un crinale sono tutti punti in cui il terreno è momentaneamente piatto in ogni direzione. Quella piattezza è ∇f = 0; se ti trovi su un picco, in un avvallamento o su una sella è una questione separata a cui risponde l'Hessiana.

Dove si trova nel MLOgni addestramento basato sul gradiente è una ricerca di ∇L = 0: l'ottimizzatore continua a fare passi finché il gradiente non diventa trascurabilmente piccolo. Per via della questione dei punti di sella (Lezione 13), ciò che di solito trova non è 'il' minimo globale, ma una tra un enorme numero di regioni a bassa loss quasi equivalenti. Il fatto che la discesa del gradiente atterri in modo…
▶ Punti Critici in Rⁿ
← Grafi di CalcoloConcavità/Convessità →