Градиентът

Многопроменливо смятане от първи принципи

Съберете всяка частна производна на f в един вектор и ще получите градиента, записван като ∇f („град f“). Всеки оптимизатор в дълбокото обучение работи с този обект, така че той заслужава централно място в курса.

Градиентът не е просто формалност. Като вектор във входното пространство, той има посока и дължина, и двете носят значение. Посоката му е тази на най-стръмното изкачване: насочете се по ∇f и функцията се изкачва възможно най-бързо. Дължината му ‖∇f‖ показва точно колко стръмно е изкачването.

Представете си, че стоите на тревист хълм в мъгла. Градиентът ∇f е стрелката, която сочи право нагоре към най-стръмната част от наклона, а дължината ѝ ви казва точно колко изтощително е това изкачване. Оставете топка и я пуснете: тя се търкаля точно в обратната посока, поемайки по най-бързия път надолу.

Къде се използва това в MLЗастанали върху повърхността на загубата, искате да слезете надолу възможно най-бързо. Градиентът ∇L сочи към най-стръмното изкачване, затова го изваждате: w ← w − η∇L – това е стъпката зад SGD, Adam и всеки друг оптимизатор. Обратното разпространение (backpropagation) съществува заради една основна причина: да изчислява ефективно този вектор.
▶ Градиентът
← Частни производни от по-висок редПроизводна по посока →