Gradien

Kalkulus multivariabel dari prinsip pertama

Kumpulkan setiap turunan parsial dari f ke dalam satu vektor dan kamu mendapat gradien, ditulis ∇f ("grad f"). Setiap optimizer dalam deep learning berjalan pada satu objek ini, jadi ia layak berada di pusat kursus.

Gradien bukan sekadar pencatatan. Sebagai vektor di ruang input, ia memiliki arah dan panjang, dan keduanya bermakna. Arahnya adalah arah kenaikan paling curam: arahkan dirimu sepanjang ∇f dan fungsi naik secepat mungkin. Panjangnya ‖∇f‖ persis seberapa curam kenaikan itu.

Bayangkan Anda berdiri di bukit berumput dalam kabut. Gradien ∇f adalah panah yang menunjuk lurus ke atas bagian paling curam dari lereng, dan panjangnya memberi tahu Anda betapa melelahkannya tanjakan itu. Letakkan bola dan lepaskan: bola itu menggelinding ke arah yang berlawanan persis, mengambil jalan tercepat ke bawah.

Di mana ini berlaku dalam MLBerdiri di permukaan loss, kamu ingin melangkah turun secepat mungkin. Gradien ∇L menunjuk ke arah kenaikan paling curam, jadi kamu menguranginya: w ← w − η∇L, update di balik SGD, Adam, dan semua optimizer lain. Backpropagation ada karena satu alasan: menghitung vektor ini secara efisien.
▶ Gradien
← Parsial Orde TinggiTurunan Arah →