Многомерный Тейлор — Математический анализ II

Линейное приближение (Урок 9) использовало лишь градиент и давало плоскую касательную. Добавьте следующий член, построенный из гессиана, — получите квадратичную аппроксимацию: параболоид, обнимающий поверхность, ловящий кривизну, а не только наклон.

Три части: f(x) — высота, ∇fᵀδ — линейная поправка (наклон), ½δᵀHδ — квадратичная поправка (кривизна). Последний член — квадратичная форма от шага, чьё знак управляется собственными значениями гессиана.

Плоская касательная плоскость, лежащая на изогнутой поверхности, подобна жесткому предметному стеклу на вашем глазу: оно касается в одном месте, но везде в остальных местах есть зазоры. Контактная линза справляется лучше, потому что она изогнута, чтобы соответствовать поверхности глаза, соответствуя не только тому, где находится глаз, но и тому, как он изгибается. Член гессиана ½δᵀHδ — это та самая встроенная кривизна: она позволяет аппроксимации облегать поверхность, а не просто опираться на неё.

Где это встречается в MLВместо того чтобы дюйти вниз малыми градиентными шагами, можно подогнать параболоид к потере и прыгнуть прямо к его дну. Это метод Ньютона: минимизирует локальную квадратичную точно, шагая δ = −H⁻¹∇f, и сходится куда быстрее простого градиентного спуска, когда кривизна сильно меняется. Adam и собратья ищут ту же поправку на кривизну дёшево, по параметрам, не формируя полный (огромный) гессиан.