Hessian Geometrisi

Multivariate calculus from first principles

Hessian'ın özdeğerleri, 'bu nasıl bir kritik nokta?' şeklindeki bulanık soruyu temiz bir kontrol listesine dönüştürür. Gradyanın sıfır olduğu bir noktada, Hessian'ın özdeğerlerinin işaretleri sana bir çanağın içinde mi, bir kubbenin üzerinde mi yoksa bir eyerde mi oturduğunu söyler.

Bu, çok değişkenli ikinci türev testidir ve 1 boyutlunun doğrudan bir genellemesidir: orada f″ > 0 bir minimum, f″ bir maksimum anlamına geliyordu. Hessian'ın özdeğerleri, o tek sayının pek çok yöne uyarlanmış sürümleridir.

Üç farklı atıştırmalığı hayal edin. Bir kase çorba hangi yöne eğerseniz eğin yukarı doğru kıvrılır, kubbe şeklindeki bir dondurma her yerde aşağı doğru kıvrılır ve bir Pringle cipsi uzunluğu boyunca yukarı, ancak genişliği boyunca aşağı doğru bükülür. Hessian'ın özdeğerleri yalnızca o özel yönlerdeki eğriliklerdir: aynı işaret kase veya kubbe anlamına gelir, zıt işaretler (2 ve −2 gibi) cips, yani semer anlamına gelir.

Bunun ML'deki yeriYüksek boyutlarda, eyer noktaları yerel minimumlardan çok daha fazladır. n boyuttaki rastgele bir kritik noktanın gerçek bir minimum ya da maksimum olması için, n özdeğerinin tümünün aynı işareti paylaşması gerekir ki bu üstel olarak olası değildir. Yani bir derin ağı eğitmek, çoğunlukla kötü yerel minimumlara takılmakla değil, eyerlerden kaçmakla ilgilidir; bu yerlerde gradyan küçüktür ama…
▶ Hessian Geometrisi
← HessianZincir Kuralı: Skaler Bileşke →