Гессиан

Многомерный анализ с первых принципов

Градиент собрал все первые производные. Гессиан собирает все вторые производные скалярной функции f: Rⁿ → R в матрицу. Где градиент даёт наклон, гессиан даёт кривизну: как сам наклон меняется при движении.

По теореме Клеро (Урок 6), Hᵢⱼ = Hⱼᵢ, так что гессиан всегда симметричен для гладких функций. Это подарок: симметричные матрицы имеют вещественные собственные значения и ортогональные собственные векторы, и эти значения — кривизны вдоль главных направлений.

Если градиент — это спидометр поверхности, то гессиан — это её панель приборов кривизны: он сообщает о том, как сам уклон изгибается во всех направлениях одновременно. Поверхность, изгибающаяся вверх вокруг вас, выглядит как дно долины; изгибающаяся вниз повсюду — как вершина купола; вверх в одном направлении и вниз в другом — это седло. Гессиан упаковывает все это в одну симметричную сетку вторых производных.

Где это встречается в MLКогда градиентный спуск ползёт по длинной узкой долине, медленно отскакивая от крутых стен, гессиан объясняет почему. Его собственные значения — кривизны в каждом направлении, и большой разброс между ними (высокое число обусловленности) — та самая долина: круто одним путём, почти плоско другим. Методы второго порядка вроде Ньютона, а по духу и масштабирование Adam по параметрам, читают гессиан,…
▶ Гессиан
← Геометрия якобианаГеометрия гессиана →