Правила произведения и частного

Одномерный анализ с первых принципов

Когда две функции перемножены, нельзя просто умножить их производные. Это заманчивый ярлык — и неверный. Правильное правило учитывает, что оба множителя меняются одновременно.

Представьте прямоугольник шириной f и высотой g; его площадь f·g. Если обе стороны чуть подрастут, площадь растёт на два фронта: полоса от шире ширины плюс полоса от выше высоты. Поэтому ответ из двух слагаемых, не одного.

Представьте себе прямоугольный сад, у которого и ширина, и длина увеличиваются одновременно. Новая площадь — это не просто одна полоса, вы получаете полосу вдоль увеличенной ширины и полосу вдоль увеличенной длины. Вот почему в правиле произведения есть два слагаемых: когда перемножаются две изменяющиеся величины, рост каждой из них вносит свою собственную долю в общую сумму.

Где это встречается в MLЭти правила — строительные блоки, которые композирует автоград. Нормализованный счёт вроде softmax-вероятности или веса внимания — частное (что-то на сумму), и дифференцирование использует правило частного под капотом. Масштабирование batch-norm, деление layer-norm на стандартное отклонение: где бы сеть ни делила одну изученную величину на другую, правило частного — то, что применяет градиентный…
▶ Правила произведения и частного
← Базовые правила дифференцированияЦепное правило →