볼록성 — 미적분학 I · Mathematics for Machine Learning

볼록성은 최적화를 쉽게 만들어 주는 형태입니다. 볼록 함수는 어디에서나 그릇처럼 위로 패여 있는데, 바로 이 하나의 성질이 최소화를 쉽게 합니다. 가장 낮은 점이 정확히 하나뿐이고, 어느 내리막 경로를 택하든 곧장 그곳으로 이어지기 때문입니다.

볼록성을 보는 동등한 방법이 세 가지 있습니다. 첫째, 이계 도함수가 어디에서나 음이 아닙니다. 즉 f″(x) ≥ 0입니다. 둘째, 곡선이 위로 패여 있고 아래로 휘는 일이 없습니다. 셋째, 정의 그 자체에 해당하는 그림으로, 임의의 두 점을 잇는 현이 곡선 위쪽에 놓입니다.

부드러운 계곡이나 그릇의 안쪽을 상상하고 어디든 구슬을 떨어뜨려 보세요. 어디서 시작하든, 구슬은 항상 단일 최하단 지점으로 굴러가 그곳에 정착합니다. 그것이 바로 볼록성(convexity)이 가져다주는 이점입니다: 계곡 하나, 가짜 바닥이 없으므로, 어떤 내리막길을 타든 오직 하나의 진정한 최솟값으로 이어집니다.

머신러닝에서의 위치볼록성은 ML을 가르는 분수령입니다. 선형 회귀와 로지스틱 회귀, SVM은 손실이 볼록합니다. 전역 최소가 하나뿐이라 학습이 믿을 만하고 재현 가능합니다. 반면 딥 네트워크는 손실이 극심하게 비볼록하여, 셀 수 없이 많은 국소 최소와 안장점을 가집니다. 그래서 무작위 초기화가 다르면 서로 다른 해에 도달하고, 학습률이 그토록 중요하며, 유일한 «그» 최적해라는 것이 없습니다. 손실이 볼록한지 아닌지를 아는 것이 최적화기를 얼마나 믿어도 될지를 알려 줍니다.