Цепное правило — правило, на котором построен обратный пропуск (backpropagation). Оно говорит, как дифференцировать композицию: функцию внутри функции, как f(g(x)).
Чтобы продифференцировать «внешнюю от внутренней», возьмите внешнюю производную (оставив внутреннюю), затем умножьте на внутреннюю производную. Скорости изменения умножаются вдоль цепи.
Думайте как о конвейере: x → g → f. Nudge в x усиливается g′, затем ещё f′. Полное усиление — произведение. Фигура обрисовывает производные, умножающиеся вдоль композиции.
Где это встречается в MLОбратный пропуск — это цепное правило, запущенное назад по сети. Глубокая сеть — одна гигантская композиция (слой за слоем за слоем), и градиент потери по раннему весу — произведение локальных производных, по одной на слой, вдоль пути. Поэтому «исчезающие градиенты» случаются: умножьте много малых производных — и произведение сжимается к нулю. Цепное правило не похоже на backprop; оно и есть…