Критични точки в Rⁿ — Смятане II

Оптимизацията в много измерения започва точно оттам, откъдето започна в едно измерение: от търсенето къде наклонът е нула. Само че сега „наклонът“ е целият вектор на градиента, така че критична точка е там, където всяка частна производна се занулява едновременно, ∇f = 0.

Това условие е необходимо, но не и достатъчно: нулев градиент може да отбелязва минимум, максимум или седлова точка. За да ги различите, въвеждате Хесиана и четете знаците на собствените му стойности – тестът от втори ред от Урок 13. Нулевият градиент локализира кандидата, а Хесианът го класифицира.

Вървете по хълмисто голф игрище и търсете равните места, местата, където топката би стояла неподвижно. Тий на върха на хълм, ниският грийн в падина и плоското седло по билото са все места, където земята е за момент равна във всяка посока. Тази равнинност е ∇f = 0; дали сте на връх, в падина или на седло е отделен въпрос, на който Хесианът отговаря.

Къде се използва това в MLВсяко обучение, основано на градиент, е търсене на ∇L = 0: оптимизаторът прави стъпки, докато градиентът стане пренебрежимо малък. Заради историята със седловите точки (Урок 13) това, което обикновено намира, не е „глобалният“ минимум, а един от огромен брой почти равностойни области с ниска загуба. Това, че градиентното спускане надеждно намира достатъчно добри решения, е голяма част и от…