Верижно правило

Изчисление на променлива от първи принципи

Верижното правило е правилото, на което се основава обратното разпространение (backpropagation). То показва как се диференцира композиция от функции: функция, вложена в друга функция, като f(g(x)).

За да диференцирате функция, вложена в друга, вземете външната производна (като оставите вътрешната функция непроменена), след което умножете по вътрешната производна. Скоростите на промяна се умножават по веригата.

Мислете за това като за конвейер: x → g → f. Малка промяна (побутване) в x се усилва от g′, след което тази промяна се усилва отново от f′. Общото усилване е произведението на двете. Фигурата проследява как производните се умножават по веригата на композицията.

Къде се използва това в MLОбратното разпространение (backpropagation) е просто верижното правило, приложено в обратна посока през мрежата. Дълбоката невронна мрежа е една гигантска композиция от функции (слой след слой), а градиентът на функцията на загубата спрямо някое тегло от ранните слоеве е произведение от локални производни – по една за всеки слой, умножени по пътя. Ето защо се получават "затихващи градиенти"…
▶ Верижно правило
← Правила за произведение и частноНеявно диференциране →