Производная по направлению

Многомерный анализ с первых принципов

Частные производные говорят наклон лишь вдоль координатных осей, но идти можно в любом направлении. Производная по направлению D_u f отвечает: если шагать вдоль единичного вектора u, как быстро f меняется? Ответ — одно скалярное произведение с градиентом.

Представьте себе поход по тому же холму, но вместо того, чтобы смотреть прямо вверх, вы выбираете азимут по компасу, скажем, северо-восток, и идете в том направлении. Производная по направлению D_u f — это уклон, который вы фактически чувствуете под своими ботинками вдоль этого курса. Направьтесь в самом крутом направлении, и вы почувствуете полный подъем; повернитесь боком вдоль склона, и земля покажется плоской.

Поскольку D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (u единичный), скорость изменения максимальна ровно при cos θ = 1, то есть когда u указывает вдоль ∇f. Вращайте стрелку направления ниже и наблюдайте, как показание наклона пикирует при совмещении с градиентом и зануляется при перпендикуляре.

Где это встречается в MLЭто теорема, которая оправдывает градиентный спуск. Среди всех направлений −∇L доказанно снижает потерю быстрее всего. Если вы задавались вопросом, почему обучение шагает вдоль градиента, а не другого направления, вот ответ: градиент — лучший локальный выбор, поэтому w ← w − η∇L — универсальное обновление.
▶ Производная по направлению
← ГрадиентЛинейное приближение →