Rⁿ에서의 임계점 — 미적분학 II · Mathematics for Machine Learning

다차원에서의 최적화도 1차원과 똑같은 지점에서 시작합니다. 바로 기울기가 0인 곳을 찾는 것입니다. 다만 이제 «기울기»는 전체 그래디언트 벡터이므로, 임계점은 모든 편도함수가 동시에 0이 되는 점, 즉 ∇f = 0인 점입니다.

이것은 필요조건이지 충분조건은 아닙니다. 그래디언트가 0인 점은 최소일 수도, 최대일 수도, 안장일 수도 있습니다. 이들을 구분하려면 헤세를 가져와 고윳값의 부호를 읽으면 되는데, 이것이 레슨 13의 이계 판정법입니다. 그래디언트가 0인 조건은 후보를 찾아 주고, 헤세는 그 후보를 분류해 줍니다.

언덕이 많은 골프장을 걸으며 공이 가만히 앉아 있을 만한 평평한 지점들을 찾아보세요. 언덕 꼭대기의 티, 오목한 곳에 있는 낮은 그린, 능선을 따라 이어진 평평한 안장은 모두 땅이 모든 방향에서 순간적으로 평평해지는 지점들입니다. 그 평평함이 ∇f = 0입니다; 당신이 봉우리 위에 있는지, 오목한 곳에 있는지, 아니면 안장 위에 있는지는 헤세 행렬이 답해줄 별개의 질문입니다.

머신러닝에서의 위치모든 그래디언트 기반 훈련은 결국 ∇L = 0을 찾는 탐색입니다. 최적화기는 그래디언트가 무시할 만큼 작아질 때까지 계속 한 걸음씩 나아갑니다. 안장점 이야기(레슨 13) 때문에, 그렇게 도달하는 곳은 보통 «그» 유일한 전역 최소가 아니라, 거의 동등하게 손실이 낮은 수많은 영역 중 하나입니다. 그래디언트 디센트가 그중 충분히 좋은 곳에 안정적으로 도달한다는 사실이야말로 딥러닝의 경험적 미스터리이자 성공의 큰 부분입니다.