Критические точки в Rⁿ — Математический анализ II

Оптимизация во многих измерениях начинается там же, где в 1D: найдите, где наклон ноль. Но теперь «наклон» — весь вектор градиента, так что критическая точка — где каждая частная производная обращается в ноль одновременно, ∇f = 0.

Это необходимо, но недостаточно: нулевой градиент отмечает минимум, максимум или седло. Чтобы различить, привлекаете гессиан и читаете знаки собственных значений — тест второго порядка из Урока 13. Нулевой градиент находит кандидата; гессиан классифицирует.

Пройдитесь по холмистому полю для гольфа и найдите ровные места — те места, где мяч лежал бы неподвижно. Ти на вершине холма, низкий грин во впадине и плоское седло вдоль хребта — всё это места, где земля на мгновение становится плоской во всех направлениях. Эта плоскостность есть ∇f = 0; находитесь ли вы на вершине, во впадине или в седле — это отдельный вопрос, на который отвечает гессиан.

Где это встречается в MLКаждый запуск градиентного обучения — поиск ∇L = 0: оптимизатор шагает, пока градиент пренебрежимо мал. Из-за истории о седлах (Урок 13) обычно находит не «тот» глобальный минимум, а одну из огромного числа почти эквивалентных низкопотерянных областей. То, что градиентный спуск надёжно попадает в достаточно хорошую — во многом эмпирическая загадка и успех глубокого обучения.