Ограничена оптимизация

Многопроменливо смятане от първи принципи

Често не търсите най-ниската точка изобщо, а най-ниската точка при дадено ограничение. Минимизирайте загубата, като държите нормата на теглата ограничена; максимизирайте маржа, докато точките остават правилно класифицирани. Множителите на Лагранж са стандартният инструмент за оптимизация по крива на ограничение.

Геометрията, която трябва да забележите: при ограничен оптимум линиите на ниво (изолиниите) на f са допирателни към ограничението g(x) = 0. Ако се пресичаха, вместо да се допират, бихте могли да се плъзнете по ограничението до по-добра стойност. Допирането означава, че двата градиента сочат по една и съща права, тоест са успоредни:

Скаларът λ (множител на Лагранж) е коефициентът на пропорционалност. Събирането на двете условия в един обект дава лагранжиана L = f − λg; приравняването ∇L = 0 възстановява точно горните уравнения.

Къде се използва това в MLОграничената оптимизация е навсякъде в ML. Машините с опорни вектори (SVM) максимизират маржа при класификационни ограничения, а двойствената им задача е построена от множители на Лагранж (чрез условията на KKT – разширението, което се справя с неравенствата). Ограничените норми на теглата, доверителните области в обучението с утвърждение (RL) и проектираните градиентни методи – всички те се…
▶ Ограничена оптимизация
← ИзпъкналостМногомерен ред на Тейлър →