Hessian

Kalkulus multivariabel dari prinsip pertama

Gradien mengemas semua turunan pertama. Hessian mengemas semua turunan kedua dari fungsi skalar f: Rⁿ → R ke matriks. Di mana gradien memberi kemiringan, Hessian memberi kelengkungan: bagaimana kemiringan itu sendiri berubah saat Anda bergerak.

Menurut teorema Clairaut (Pelajaran 6), Hᵢⱼ = Hⱼᵢ, jadi Hessian selalu simetris untuk fungsi halus yang kita pedulikan. Itu hadiah: matriks simetris memiliki eigenvalue real dan eigenvector ortogonal, dan eigenvalue itu persis kelengkungan sepanjang arah utama.

Jika gradien adalah spidometer suatu permukaan, Hessian adalah dasbor kelengkungannya: ini melaporkan bagaimana kemiringan itu sendiri menekuk di setiap arah secara bersamaan. Permukaan yang melengkung ke atas di sekeliling Anda terbaca seperti dasar lembah; melengkung ke bawah di sekelilingnya terbaca seperti puncak kubah; naik di satu sisi dan turun di sisi lain adalah pelana. Hessian mengemas semua itu ke dalam satu grid simetris dari turunan kedua.

Di mana ini berlaku dalam MLSaat gradient descent merangkak menuruni lembah panjang sempit, memantul perlahan dari dinding curam, Hessian menjelaskan mengapa. Eigenvalue-nya adalah kelengkungan di setiap arah, dan penyebaran lebar antara mereka (condition number tinggi) persis lembah itu: curam satu arah, hampir datar arah lain. Metode orde-dua seperti Newton, dan dalam semangat penskalaan per-parameter Adam, membaca…
▶ Hessian
← Geometri JacobianGeometri Hessian →