헤세 행렬

제1원리에서 출발하는 다변수 미적분

그래디언트가 모든 일계 도함수를 한데 담았다면, 헤세 행렬은 스칼라 함수 f: Rⁿ → R의 모든 이계 도함수를 행렬에 담습니다. 그래디언트가 기울기를 알려 준다면, 헤세 행렬은 곡률을 알려 줍니다. 움직임에 따라 기울기 자체가 어떻게 변하는지를 말해 주는 것입니다.

클레로 정리(레슨 6)에 따라 Hᵢⱼ = Hⱼᵢ이므로, 우리가 관심을 두는 매끄러운 함수에 대해 헤세 행렬은 언제나 대칭입니다. 이는 큰 선물입니다. 대칭 행렬은 실수 고윳값과 직교하는 고유벡터를 가지며, 그 고윳값이 바로 주축 방향의 곡률이기 때문입니다.

그래디언트가 표면의 속도계라면, 헤세 행렬은 그것의 곡률 대시보드입니다: 이는 모든 방향에서 동시에 경사 자체가 어떻게 굽어 있는지를 보고합니다. 당신 주변 사방으로 굽어 올라간 표면은 계곡의 바닥처럼 읽힙니다; 사방으로 굽어 내려간 표면은 돔의 꼭대기처럼 읽힙니다; 한쪽으로는 올라가고 다른 쪽으로는 내려가면 안장입니다. 헤세 행렬은 그 모든 것을 2계 편도함수의 대칭 격자 하나에 담습니다.

머신러닝에서의 위치그래디언트 강하법이 길고 좁은 골짜기를 따라 기어 내려가면서 가파른 벽에 부딪혀 느리게 튕길 때, 그 이유를 헤세 행렬이 설명해 줍니다. 헤세 행렬의 고윳값은 각 방향의 곡률이며, 고윳값들 사이의 넓은 격차(높은 조건수)가 바로 그 골짜기입니다. 한 방향으로는 가파르고 다른 방향으로는 거의 평평한 것입니다. 뉴턴법 같은 이계 방법, 그리고 본질적으로는 Adam의 매개변수별 스케일링이 헤세 행렬을 읽어 이를 보정하고 경로를 곧게 펴 줍니다.
▶ 헤세 행렬
← 야코비안 기하학헤세 기하학 →