Многопроменливо смятане от първи принципи
Съберете всяка частна производна на f в един вектор и ще получите градиента, записван като ∇f („град f“). Всеки оптимизатор в дълбокото обучение работи с този обект, така че той заслужава централно място в курса.
Градиентът не е просто формалност. Като вектор във входното пространство, той има посока и дължина, и двете носят значение. Посоката му е тази на най-стръмното изкачване: насочете се по ∇f и функцията се изкачва възможно най-бързо. Дължината му ‖∇f‖ показва точно колко стръмно е изкачването.
Представете си, че стоите на тревист хълм в мъгла. Градиентът ∇f е стрелката, която сочи право нагоре към най-стръмната част от наклона, а дължината ѝ ви казва точно колко изтощително е това изкачване. Оставете топка и я пуснете: тя се търкаля точно в обратната посока, поемайки по най-бързия път надолу.