Kalkulus multivariabel dari prinsip pertama
Satu struktur data mengorganisir semuanya dari dua pelajaran terakhir: grafik komputasi. Setiap operasi aritmetika dalam model (tambah, kali, matmul, aktivasi) menjadi node dalam grafik berarah. Grafik ini cara PyTorch, JAX, dan TensorFlow menghitung gradien secara otomatis.
Pelatihan menjalankan grafik dalam dua sapuan. Pass forward mengalir kiri ke kanan, menghitung dan menyimpan nilai setiap node. Pass backward mengalir kanan ke kiri, menggunakan aturan rantai untuk mendorong gradien dari loss kembali ke setiap masukan, satu node pada satu waktu.
Ide yang membuatnya berskala: setiap node hanya perlu tahu turunan lokal-nya sendiri. Untuk mengirim gradien ke belakang melalui node, kalikan gradien masuk (dari atas) dengan Jacobian lokal node (bagaimana keluarannya bergantung pada masukannya). Tidak ada node yang pernah gambaran global; aturan lokal dirantai bersama menghasilkan gradien total yang tepat.