Цепное правило

Одномерный анализ с первых принципов

Цепное правило — правило, на котором построен обратный пропуск (backpropagation). Оно говорит, как дифференцировать композицию: функцию внутри функции, как f(g(x)).

Чтобы продифференцировать «внешнюю от внутренней», возьмите внешнюю производную (оставив внутреннюю), затем умножьте на внутреннюю производную. Скорости изменения умножаются вдоль цепи.

Думайте как о конвейере: x → g → f. Nudge в x усиливается g′, затем ещё f′. Полное усиление — произведение. Фигура обрисовывает производные, умножающиеся вдоль композиции.

Где это встречается в MLОбратный пропуск — это цепное правило, запущенное назад по сети. Глубокая сеть — одна гигантская композиция (слой за слоем за слоем), и градиент потери по раннему весу — произведение локальных производных, по одной на слой, вдоль пути. Поэтому «исчезающие градиенты» случаются: умножьте много малых производных — и произведение сжимается к нулю. Цепное правило не похоже на backprop; оно и есть…
▶ Цепное правило
← Правила произведения и частногоНеявное дифференцирование →