볼록성 — 미적분학 II · Mathematics for Machine Learning

어떤 최적화 문제는 쉽고 어떤 문제는 어려운데, 그 경계를 긋는 성질이 하나 있습니다. 바로 볼록성입니다. 볼록 함수는 거짓 바닥이 없는 하나의 그릇 모양이어서, 그래디언트가 0인 곳을 찾으면 그곳이 곧 «그» 전역 최소입니다. 안장도 없고 국소적인 함정도 없습니다.

정의를 그림으로 표현하면 이렇습니다. 그래프 위의 임의의 두 점을 잇는 직선 현이 그래프 위쪽에(또는 그래프 위에 걸쳐) 놓이면 그 함수는 볼록합니다. 함수가 자기 지름길 위로 불거지지 않는 것입니다.

매끄러운 샐러드 그릇과 울퉁불퉁한 계란 판을 비교해 보세요. 그릇에는 진짜 바닥이 하나 있습니다: 어디서든 구슬을 굴려 넣으면 항상 같은 낮은 지점에 정착합니다. 계란 판은 가장 낮은 곳에 도달하기 전에 구슬을 잡아두는 가짜 바닥인 작은 함정들로 가득합니다. 볼록 함수는 샐러드 그릇이며, 단 하나만 보장되는 최솟값이 바로 그것을 최적화하기 쉽게 만드는 요소입니다.

머신러닝에서의 위치볼록인지 비볼록인지의 구분은 ML의 많은 부분을 설명해 줍니다. 선형 회귀와 로지스틱 회귀는 볼록이어서, 그래디언트 디센트가 전역 최적에 도달함이 증명되고 어떤 두 실행이든 같은 결과로 수렴합니다. 반면 딥 네트워크는 극심하게 비볼록이어서 임계점으로 가득하고, 결과가 초기화와 무작위성에 따라 달라집니다. 이 간극이 바로 고전 ML은 믿음직하게 느껴지고 딥러닝은 까다롭게 느껴지는 이유입니다. 한편 옌센 부등식은 VAE 훈련에 쓰이는 ELBO의 핵심입니다.