Градиент

Многомерный анализ с первых принципов

Соберите все частные производные f в один вектор — получите градиент, обозначаемый ∇f («град f»). Каждый оптимизатор в глубоком обучении работает на этом объекте, поэтому он заслуживает центра курса.

Градиент — не просто учёт. Как вектор во входном пространстве, он имеет направление и длину, и оба несут смысл. Направление — наискорейшего подъёма: встаньте вдоль ∇f, и функция растёт максимально быстро. Длина ‖∇f‖ — насколько крут тот подъём.

Представьте, что вы стоите на травянистом холме в тумане. Градиент ∇f — это стрелка, которая указывает прямо вверх по самой крутой части склона, и ее длина говорит вам, насколько изнурительным является этот подъем. Положите мяч и отпустите его: он покатится ровно в противоположном направлении, выбрав самый быстрый путь вниз.

Где это встречается в MLСтоя на поверхности потерь, хотите шагать вниз максимально быстро. Градиент ∇L указывает к наискорейшему возрастанию, поэтому вычитаем: w ← w − η∇L, обновление за SGD, Adam и любым оптимизатором. Обратное распространение существует по одной причине — эффективно вычислять этот вектор.
▶ Градиент
← Частные производные высших порядковПроизводная по направлению →