Хесиан

Многопроменливо смятане от първи принципи

Градиентът събира всички първи производни. Хесианът (матрицата на Хесе) събира всички втори производни на скаларна функция f: Rⁿ → R в матрица. Докато градиентът дава наклона, Хесианът дава кривината: как самият наклон се променя, докато се движите.

Според теоремата на Клеро (Урок 6), Hᵢⱼ = Hⱼᵢ, така че Хесианът винаги е симетричен за гладките функции, които ни интересуват. Това е предимство: симетричните матрици имат реални собствени стойности и ортогонални собствени вектори, а тези собствени стойности са точно кривините по главните посоки.

Ако градиентът е скоростомерът на дадена повърхност, Хесианът е нейното табло за кривина: той отчита как самият наклон се извива във всяка посока едновременно. Повърхност, извиваща се нагоре навсякъде около вас, се чете като дъно на долина; извиваща се надолу навсякъде се чете като връх на купол; нагоре в една посока и надолу в друга е седло. Хесианът събира всичко това в една симетрична мрежа от втори производни.

Къде се използва това в MLКогато градиентното спускане пълзи бавно надолу по дълга тясна долина, отскачайки от стръмните стени, Хесианът обяснява защо. Неговите собствени стойности са кривините във всяка посока и голямата разлика между тях (високо число на обусловеност) създава точно тази долина: стръмна в едната посока, почти равна в другата. Методи от втори ред като метода на Нютон, както и адаптивното мащабиране на…
▶ Хесиан
← Геометрия на ЯкобианаГеометрия на Хесиана →