Многомерный анализ с первых принципов
Соберите все частные производные f в один вектор — получите градиент, обозначаемый ∇f («град f»). Каждый оптимизатор в глубоком обучении работает на этом объекте, поэтому он заслуживает центра курса.
Градиент — не просто учёт. Как вектор во входном пространстве, он имеет направление и длину, и оба несут смысл. Направление — наискорейшего подъёма: встаньте вдоль ∇f, и функция растёт максимально быстро. Длина ‖∇f‖ — насколько крут тот подъём.
Представьте, что вы стоите на травянистом холме в тумане. Градиент ∇f — это стрелка, которая указывает прямо вверх по самой крутой части склона, и ее длина говорит вам, насколько изнурительным является этот подъем. Положите мяч и отпустите его: он покатится ровно в противоположном направлении, выбрав самый быстрый путь вниз.