Изчислителни графове — Смятане II

Една-единствена структура от данни обединява всичко от последните два урока: изчислителният граф. Всяка аритметична операция в модела (събиране, умножение, matmul, активация) се превръща във възел на насочен граф. Именно този граф позволява на PyTorch, JAX и TensorFlow да изчисляват градиенти автоматично.

Обучението изпълнява графа в две стъпки. Правото преминаване протича отляво надясно и изчислява и кешира стойността на всеки възел. Обратното преминаване тече отдясно наляво и чрез верижното правило избутва градиента на загубата обратно към всеки вход – възел по възел.

Идеята, която прави всичко това мащабируемо: всеки възел трябва да познава само своята собствена локална производна. За да върнете градиента назад през даден възел, умножете входящия градиент (отгоре) по локалния якобиан на възела (как изходът му зависи от входовете му). Нито един възел не се нуждае от цялостната картина – локалните правила, свързани верижно, дават точния общ градиент.

Къде се използва това в MLИзчислителният граф е autograd. Когато пишете модел в PyTorch, всяка операция тихомълком записва възел; извикването на loss.backward() обхожда графа в обратна посока, умножава локалните якобиани по верижното правило и натрупва ∂loss/∂w за всеки параметър. Никога не пишете производна на ръка – и точно това удобство, производни, пресметнати точно и без усилие, до голяма степен прави модерното…