Верижно правило: Скаларна композиция

Многопроменливо смятане от първи принципи

Ако сведете обратното разпространение (backpropagation) до чистата му математика, ще стигнете до този урок. Многомерното верижно правило ви казва как да диференцирате композиция от функции – а това е единственото нещо, което системата за автоматично диференциране (autograd) всъщност прави. Започваме със скаларната версия: как промяна в един вход се предава през междинните променливи към изхода.

Да допуснем, че z зависи от междинните променливи y₁, y₂, …, които на свой ред зависят от входовете x. За да намерите как z се променя спрямо даден вход, сумирайте по всеки път от този вход до изхода, като умножавате производните по дължината на пътя:

Всеки член (∂z/∂yₖ)(∂yₖ/∂xᵢ) е приносът на един маршрут, а вие сумирате всички маршрути. Ако пътят е само един, правилото се свежда до познатото едномерно верижно правило.

Къде се използва това в MLТова сумиране по пътищата е точно едно обратно преминаване (backward pass) през даден възел на мрежата. Всяка междинна променлива yₖ е активацията на даден неврон, ∂z/∂yₖ е градиентът, който се връща към него, а ∂yₖ/∂xᵢ е локалната производна на тази операция. Като умножите и сумирате, вие придвижвате градиента една стъпка назад. А като повторите тази стъпка през целия граф, на практика обучавате…
▶ Верижно правило: Скаларна композиция
← Геометрия на ХесианаВерижно правило: матрична форма →