Верижно правило: матрична форма

Многопроменливо смятане от първи принципи

Формулата за сумиране по пътищата всъщност е матрично умножение, изписано елемент по елемент. Когато функциите са векторнозначни, верижното правило се свежда до чисто умножение на якобиани – и точно тази форма използват реалните системи за автоматично диференциране (autograd).

За композиция f ∘ g Якобианът на цялото преобразуване е Якобианът на външното преобразуване (пресметнат във вътрешния изход), умножен по Якобиана на вътрешното преобразуване:

Проверката на размерностите изяснява всичко. Ако g: Rⁿ → Rᵏ и f: Rᵏ → Rᵐ, то J_g е k×n, J_f е m×k, а произведението им е m×n – точно размерността, която изисква цялото преобразуване Rⁿ → Rᵐ. Вътрешната размерност k се съкращава, както при обикновеното матрично умножение.

Къде се използва това в MLТова произведение е причината дълбоките мрежи да страдат от затихващи и експлодиращи градиенти. Ако умножите много Якобиани със сингулярни стойности под 1, произведението се свива към нула; ако стойностите са над 1, то нараства лавинообразно. Остатъчните връзки (residual connections), внимателната инициализация и нормализацията съществуват именно за да задържат това произведение на Якобиани в…
▶ Верижно правило: матрична форма
← Верижно правило: Скаларна композицияИзчислителни графове →