Частные производные высших порядков

Многомерный анализ с первых принципов

Как у 1D-функции есть вторая производная, у многомерной функции есть частные второго порядка. Дифференцируете дважды. Новое — что каждый раз можно выбирать, по какой переменной дифференцировать, и при смешивании происходит нечто опрятное.

Чистые вторые ∂²f/∂x² и ∂²f/∂y² измеряют кривизну вдоль каждой оси. Смешанная частная ∂²f/∂x∂y дифференцирует сначала по y, затем по x; она измеряет, как наклон в одном направлении меняется при движении в другом.

Первая частная производная говорит вам о крутизне склона; вторая частная производная говорит вам о том, как сама эта крутизна меняется по мере вашего движения, что является кривизной уклона. Идя на восток, продолжает ли земля становиться круче или начинает выравниваться? Этот изгиб восточного уклона ∂f/∂x, по мере того как вы продвигаетесь дальше на восток, есть вторая частная производная ∂²f/∂x², кривизна холма вдоль этого направления.

Где это встречается в MLЭта симметрия — причина, по которой гессиан, матрица всех вторых частных потери, получается симметричным: Hᵢⱼ = ∂²L/∂wᵢ∂wⱼ = ∂²L/∂wⱼ∂wᵢ = Hⱼᵢ. Симметричная матрица имеет вещественные собственные значения и ортогональные собственные векторы (из линейной алгебры), что позволяет чисто читать кривизну поверхности потерь как чашу, купол или седло.
▶ Частные производные высших порядков
← Частные производныеГрадиент →