다변수 테일러

제1원리에서 출발하는 다변수 미적분

선형 근사(레슨 9)는 그래디언트만 사용해 평평한 접평면을 만들어 주었습니다. 여기에 다음 항, 즉 헤세로 만든 항을 더하면 이차 근사가 됩니다. 이는 표면을 감싸 안는 포물면으로, 기울기뿐 아니라 곡률까지 담아냅니다.

세 부분으로 읽어 보세요. f(x)는 높이, ∇fᵀδ는 선형(기울기) 보정, ½δᵀHδ는 이차(곡률) 보정입니다. 마지막 항은 변위 δ에 대한 이차형식으로, 그 부호가 바로 헤세 고윳값에 의해 결정되는 그 객체입니다.

굽은 표면 위에 놓인 평평한 접평면은 단단한 유리 슬라이드를 눈 위에 얹는 것과 같습니다: 한 점에서는 닿지만 다른 모든 곳에서는 틈이 생깁니다. 콘택트렌즈는 눈의 표면에 맞게 구부러져 있어서 눈의 위치뿐만 아니라 어떻게 굽어 있는지도 맞춰주기 때문에 더 낫습니다. 헤세 행렬 항 ½δᵀHδ은 그 내장된 곡률입니다: 이것은 근삿값이 표면 위에 단순히 놓이는 대신 표면을 감싸게 해줍니다.

머신러닝에서의 위치작은 그래디언트 한 걸음씩 더듬어 내려가는 대신, 손실에 포물면을 맞춰 그 바닥으로 곧장 뛰어내릴 수도 있습니다. 이것이 뉴턴 방법입니다. 국소 이차식을 정확히 최소화하여 δ = −H⁻¹∇f만큼 이동하며, 곡률이 크게 변할 때는 순수 그래디언트 디센트보다 훨씬 빨리 수렴합니다. Adam 같은 방법들은 거대한 전체 헤세를 만들지 않고도, 매개변수별로 저렴하게 같은 곡률 보정을 추구합니다.
▶ 다변수 테일러
← 제약 최적화이중 적분 →