Kalkulus multivariabel dari prinsip pertama
Kumpulkan setiap turunan parsial dari f ke dalam satu vektor dan kamu mendapat gradien, ditulis ∇f ("grad f"). Setiap optimizer dalam deep learning berjalan pada satu objek ini, jadi ia layak berada di pusat kursus.
Gradien bukan sekadar pencatatan. Sebagai vektor di ruang input, ia memiliki arah dan panjang, dan keduanya bermakna. Arahnya adalah arah kenaikan paling curam: arahkan dirimu sepanjang ∇f dan fungsi naik secepat mungkin. Panjangnya ‖∇f‖ persis seberapa curam kenaikan itu.
Bayangkan Anda berdiri di bukit berumput dalam kabut. Gradien ∇f adalah panah yang menunjuk lurus ke atas bagian paling curam dari lereng, dan panjangnya memberi tahu Anda betapa melelahkannya tanjakan itu. Letakkan bola dan lepaskan: bola itu menggelinding ke arah yang berlawanan persis, mengambil jalan tercepat ke bawah.