헤세 기하학

제1원리에서 출발하는 다변수 미적분

헤세의 고윳값은 «이 임계점은 어떤 종류인가?»라는 모호한 질문을 깔끔한 체크리스트로 바꿔 줍니다. 그래디언트가 0인 점에서 헤세 고윳값의 부호를 읽으면, 그 점이 그릇인지 돔인지 안장인지 곧바로 알 수 있습니다.

이것이 다변수 이계 도함수 판정법으로, 1차원의 직접적인 일반화입니다. 1차원에서는 f″ > 0이면 최소, f″ 이면 최대를 뜻했습니다. 헤세의 고윳값은 그 하나의 숫자를 여러 방향으로 확장한 형태입니다.

세 가지 간식을 상상해 보세요. 수프 그릇은 어느 방향으로 기울이든 위로 굽어 있고, 아이스크림 돔은 모든 곳에서 아래로 굽어 있으며, 프링글스 칩은 길이를 따라 위로 굽어 있지만 너비를 따라서는 아래로 굽어 있습니다. 헤세 행렬의 고윳값은 바로 그 특정한 방향들을 따른 곡률입니다: 부호가 같으면 그릇이나 돔을 의미하고, (예를 들어 2와 −2처럼) 부호가 반대이면 칩, 즉 안장을 의미합니다.

머신러닝에서의 위치고차원에서는 안장점이 국소 최소보다 압도적으로 많습니다. n차원의 무작위 임계점이 진짜 최소나 최대가 되려면 n개의 고윳값이 모두 같은 부호여야 하는데, 이는 지수적으로 가능성이 낮습니다. 그래서 딥넷 훈련은 대부분 나쁜 국소 최소에 갇히는 문제가 아니라 안장에서 빠져나가는 과정, 즉 그래디언트는 작지만 아직 바닥 근처가 아닌 곳을 탈출하는 과정입니다. 이러한 관점의 전환이 딥러닝이 작동하는 큰 이유 중 하나입니다.
▶ 헤세 기하학
← 헤세 행렬연쇄 법칙: 스칼라 합성 →