Преглед на градиентно спускане — Изчисление I

Да предположим, че търсите най-ниската точка на дадена крива, но виждате само земята точно под краката си — усещате единствено нейния наклон, нищо повече. Какво правите? Просто: правите крачка в посоката надолу по наклона, после отново усещате наклона, после пак крачка. И повтаряте. Това е градиентното спускане (gradient descent) – алгоритъмът, който обучава почти всеки съвременен AI модел.

Представете си, че вървите надолу по хълм в гъста мъгла, толкова гъста, че не виждате на стъпка напред. Не можете да забележите дъното на долината, но все още можете да усетите с крака си накъде земята се накланя надолу и да направите крачка натам. Усещате, стъпвате, усещате, стъпвате. Градиентното спускане е точно това сляпо, търпеливо влачене на краката към най-ниската земя.

Записано като правило, което обновява вашата позиция на всяка стъпка:

Къде се използва това в MLТози единствен ред е сърцето на всеки оптимизатор в дълбокото обучение. Обновяването на теглата е идентично по дух: w ← w − η∇L, където ∇L е многомерната производна (градиентът) от следващия курс. SGD, Adam, RMSProp и останалите алгоритми са просто усъвършенствания на този скелет — по-интелигентни размери на стъпката, инерция (momentum), отделни скорости за всеки параметър — но основата е точно…