Предварительный просмотр градиентного спуска — Математический анализ I

Допустим, нужна низшая точка кривой, но видно только землю прямо под ногами — чувствуешь наклон, и ничего более. Что делать? Просто: шагай в направлении под гору, затем снова почувствуй, затем снова шагни. Повторяй. Это градиентный спуск — алгоритм, обучающий практически каждую современную AI-модель.

Представьте, что вы спускаетесь по склону в таком густом тумане, что не видите ни на шаг вперед. Вы не можете разглядеть дно долины, но вы все еще можете нащупать ногой, в какую сторону склон уходит вниз, и сделать шаг в этом направлении. Нащупал, шагнул, нащупал, шагнул. Градиентный спуск — это именно такое слепое, терпеливое продвижение к самому низкому месту.

Записанное как правило, обновляющее позицию на каждом шаге:

Где это встречается в MLЭта единственная строка — сердце каждого оптимизатора в глубоком обучении. Обновление весов идентично по духу: w ← w − η∇L, где ∇L — просто многомерная производная (градиент) из следующего курса. SGD, Adam, RMSProp и прочие — уточнения этого скелета — умные размеры шагов, момент, покомпонентные скорости — но кости ровно правило выше. Невыпуклость — почему у глубоких сетей нет единственного «того»…