Titik Kritis di Rⁿ

Kalkulus multivariabel dari prinsip pertama

Optimisasi dalam banyak dimensi dimulai persis seperti 1-D: temukan di mana kemiringan nol. Tapi sekarang 'kemiringan' adalah seluruh vektor gradien, jadi titik kritis adalah tempat setiap turunan parsial lenyap sekaligus, ∇f = 0.

Ini perlu tapi tidak cukup: gradien nol menandai minimum, maksimum, atau pelana. Untuk membedakannya Anda bawa Hessian dan baca tanda eigenvalue-nya, uji orde-dua dari Pelajaran 13. Gradien nol menemukan kandidat; Hessian mengklasifikasikannya.

Berjalanlah di lapangan golf berbukit dan carilah tempat yang datar, tempat bola akan diam. Tee di puncak bukit, rumput rendah di cekungan, dan pelana datar di sepanjang punggung bukit semuanya merupakan tempat di mana tanah tersebut untuk sesaat datar ke segala arah. Kedataran itu adalah ∇f = 0; apakah Anda berada di puncak, di cekungan, atau di pelana adalah pertanyaan terpisah yang dijawab oleh Hessian.

Di mana ini berlaku dalam MLSetiap pelatihan berbasis gradien adalah pencarian ∇L = 0: optimizer terus melangkah sampai gradien dapat diabaikan. Karena cerita titik-pelana (Pelajaran 13), yang biasanya ditemukan bukan minimum global 'satu-satunya' melainkan salah satu dari jumlah raksis wilayah loss-rendah yang hampir setara. Bahwa gradient descent andal mendarat di wilayah yang cukup baik adalah sebagian besar misteri…

▶ Titik Kritis di Rⁿ

← Grafik Komputasi Kekonveksan →