Правила за произведение и частно

Изчисление на променлива от първи принципи

Когато две функции са умножени, не можете просто да умножите производните им. Това е съблазнителна, но грешна пряка пътека. Правилното правило отчита факта, че и двата множителя се променят едновременно.

Представете си правоъгълник с ширина f и височина g; лицето му е f·g. Ако и двете страни нараснат малко, лицето се увеличава от две страни: ивица от по-голямата ширина плюс ивица от по-голямата височина. Ето защо отговорът има два члена, а не един.

Представете си правоъгълна градина, чиито ширина и височина и двете се разширяват едновременно. Новото лице не е просто една ивица, вие печелите ивица по протежение на по-дългата ширина и ивица по протежение на по-голямата височина. Ето защо правилото за произведението има два члена: когато две променящи се величини се умножават, растежът на всяка една допринася своя собствен дял към общото.

Къде се използва това в MLТези правила са градивните елементи, които autograd комбинира. Нормализиран резултат като вероятността при softmax или тегло в механизъм за внимание (attention weight) е частно (нещо, разделено на сума) и диференцирането му използва правилото за частното зад кулисите. Мащабирането при batch-norm, деленето на стандартното отклонение при layer-norm — навсякъде, където мрежата дели една научена…
▶ Правила за произведение и частно
← Основни правила за производниВерижно правило →