Производна по посока

Многопроменливо смятане от първи принципи

Частните производни ви казват само наклона по координатните оси, но можете да тръгнете във всяка посока. Производната по посока D_u f отговаря: ако стъпя по единичния вектор u, колко бързо се променя f? Отговорът се оказва едно скаларно произведение с градиента.

Представете си, че правите преход по същия хълм, но вместо да сте обърнати право нагоре, избирате посока по компас, да речем североизток, и вървите натам. Производната по посока D_u f е наклонът, който действително усещате под ботушите си по този курс. Насочете се към най-стръмната посока и ще усетите пълното изкачване; обърнете се настрани по склона на хълма и земята се усеща равна.

Тъй като D_u f = ∇f·u = ‖∇f‖‖u‖cos θ = ‖∇f‖cos θ (тъй като u е единичен вектор), скоростта на промяна е най-голяма точно когато cos θ = 1, тоест когато u сочи в посоката на ∇f. Завъртете стрелката за посока по-долу и гледайте как стойността на наклона достига максимум, когато се изравни с градиента, и става нула, когато е перпендикулярна.

Къде се използва това в MLТова е теоремата, която обосновава градиентното спускане. Измежду всички посоки, в които бихте могли да поемете, −∇L доказано намалява загубата най-бързо. Така че, ако някога се чудите защо обучението стъпва по градиента, а не в друга посока, това е отговорът: градиентът е най-добрият локален избор, поради което w ← w − η∇L е универсалната актуализация.
▶ Производна по посока
← ГрадиентътЛинейна апроксимация →